Method of reducing dimensionality of a set of attributes used to characterize a sparse data set

   
   

A dimensionality reduction method of generating a reduced dimension matrix data set Dnew of dimension m.times.k from an original matrix data set D of dimension m.times.k wherein n>k. The method selects a subset of k columns from a set of n columns in the original data set D where the m rows correspond to observations Ri where i=1, . . . , m and the n columns correspond to attributes Aj where j=1, . . . , n and dij is the data value associated with observation Ri and attribute Aj. The data values in the reduced data set Dnew for each of the selected k attributes is identical to the data values of the corresponding attributes in the original data set. The steps of the method include: for each of the attributes Aj in the original data set D, calculating a value of variance of the data values associated with attribute Aj, where the variance value, Var(Aj), of the attribute Aj is calculated as follows: ##EQU1## where Mean(Aj) is the mean value of the data values corresponding to attribute Aj; selecting the k attributes having the greatest variance values; and generating the reduced data set Dnew by selecting data values in the original data set D corresponding to the selected k attributes.

Eine Dimensionalitätverkleinerung Methode des Erzeugens eines verringerten Maßmatrix-Modems Dnew des Maßes m.times.k von einem ursprünglichen Matrixmodem D des Maßes m.times.k worin n k. Die Methode wählt eine Teilmenge k Spalten von einem Satz n Spalten im ursprünglichen Modem D vor, in dem die m Reihen Beobachtungen Ri in denen i=1 entsprechen. . . , m und die n Spalten Attributen Aj in denen j=1 entsprechen. . . , ist n und dij der Datenwert, der mit Beobachtung Ri und Attribut Aj verbunden ist. Die Datenwerte im verringerten Modem Dnew für jedes der vorgewählten k Attribute ist zu den Datenwerten der entsprechenden Attribute im ursprünglichen Modem identisch. Die Schritte der Methode schließen ein: für jedes der Attribute Aj im ursprünglichen Modem D, einen Wert der Abweichung der Datenwerte errechnend verbunden mit Attribut Aj, in dem der Abweichung Wert, Var(Aj), des Attributes Aj errechnet wird, wie folgt: ## EQU1 ## wo Mean(Aj) ist, bewertet der Mittelwert der Daten, Attribut Aj zu entsprechen; die k Attribute vorwählen, welche die größten Abweichung Werte haben; und das verringerte Modem Dnew durch das Vorwählen von von Datenwerten im ursprünglichen Modem D erzeugend, das den vorgewählten k Attributen entspricht.

 
Web www.patentalert.com

< Apparatus and method for recognizing color space of a digital video input

< Dynamic information format conversion

> Regional progressive meshes

> Method for designating communication paths in a network

~ 00112