Computer system and process for training of analytical models using large data sets

A database often contains sparse, i.e., under-represented, conditions which might be not represented in a training data set for training an analytical model if the training data set is created by stratified sampling. Sparse conditions may be represented in a training set by using a data set which includes essentially all of the data in a database, without stratified sampling. A series of samples, or "windows," are used to select portions of the large data set for phases of training. In general, the first window of data should be a reasonably broad sample of the data. After the model is initially trained using a first window of data, subsequent windows are used to retrain the model. For some model types, the model is modified in order to provide it with some retention of training obtained using previous windows of data. Neural networks and Kohonen networks may be used without modification. Models such as probabilistic neural networks, generalized regression neural networks, Gaussian radial basis functions, decision trees, including K-D trees and neural trees, are modified to provide them with properties of memory to retain the effects of training with previous training data sets. Such a modification may be provided using clustering. is Parallel training models which partition the training data set into disjoint subsets are modified so that the partitioner is trained only on the first window of data, whereas subsequent windows are used to train the models to which the partitioner applies the data in parallel.
Una base de datos contiene a menudo escaso, es decir, debajo-representado, las condiciones que se pudieron no representar en un modem del entrenamiento para entrenar a un modelo analítico si el modem del entrenamiento es creado por el muestreo estratificado. Las condiciones escasas se pueden representar en un entrenamiento fijado usando un modem que incluya esencialmente todos los datos en una base de datos, sin el muestreo estratificado. Una serie de muestras, o de "ventanas," se utiliza para seleccionar porciones del modem grande por fases del entrenamiento. En general, la primera ventana de datos debe ser una muestra razonablemente amplia de los datos. Después de que el modelo se entrene inicialmente usando una primera ventana de datos, las ventanas subsecuentes se utilizan para enseñar /aprender habilidades nuevas el modelo. Para algunos tipos modelo, el modelo se modifica para proveer de él una cierta retención del entrenamiento obtenida usando ventanas anteriores de datos. Las redes de los nervios y las redes de Kohonen se pueden utilizar sin la modificación. Los modelos tales como redes de los nervios probabilistic, redes de los nervios generalizadas de la regresión, funciones radiales gaussian de la base, árboles de la decisión, incluyendo árboles de K-D y árboles de los nervios, se modifican para proveer de ellos las características de la memoria para conservar los efectos del entrenamiento con los modems anteriores del entrenamiento. Tal modificación se puede proporcionar usando arracimar. son los modelos de entrenamiento paralelos en los cuales repartieron el modem del entrenamiento desunen subconjuntos se modifican para entrenar el partitioner solamente en la primera ventana de datos, mientras que las ventanas subsecuentes se utilizan para entrenar a los modelos a los cuales el partitioner aplica los datos en paralelo.

Web www.patentalert.com

< (none)

< Ornamental display toy

> Chromanone and thiochromanone compounds

> (none)

~ 00027