A data mining system for use in finding clusters of data items in a database or any other data storage medium. The clusters are used in categorizing the data in the database into K different clusters within each of M models. An initial set of estimates (or guesses) of the parameters of each model to be explored (e.g. centriods in K-means), of each cluster are provided from some source. Then a portion of the data in the database is read from a storage medium and brought into a rapid access memory buffer whose size is determined by the user or operating system depending on available memory resources. Data contained in the data buffer is used to update the original guesses at the parameters of the model in each of the K clusters over all M models. Some of the data belonging to a cluster is summarized or compressed and stored as a reduced form of the data representing sufficient statistics of the data. More data is accessed from the database and the models are updated. An updated set of parameters for the clusters is determined from the summarized data (sufficient statistics) and the newly acquired data. Stopping criteria are evaluated to determine if further data should be accessed from the database. If further data is needed to characterize the clusters, more data is gathered from the database and used in combination with already compressed data until the stopping criteria has been met.

Ένα σύστημα ανάσυρσης δεδομένων για τη χρήση στην εύρεση των συστάδων των στοιχείων στοιχείων σε μια βάση δεδομένων ή οποιοδήποτε άλλοδήποτε μέσο απομνημόνευσης στοιχείων. Οι συστάδες χρησιμοποιούνται στην ταξινόμηση των στοιχείων στη βάση δεδομένων στις διαφορετικές συστάδες Κ μέσα σε κάθε ένα από τα πρότυπα μ. Ένα αρχικό σύνολο εκτιμήσεων (ή εικασιών) των παραμέτρων κάθε προτύπου που εξερευνιέται (π.χ. centriods στα Κ-μέσα), κάθε συστάδας παρέχεται από κάποια πηγή. Κατόπιν μια μερίδα των στοιχείων στη βάση δεδομένων διαβάζεται από ένα μέσο απομνημόνευσης και παρουσιάζεται σε έναν γρήγορο απομονωτή μνήμης πρόσβασης το ο οποίος μέγεθος καθορίζεται από το χρήστη ή το λειτουργικό σύστημα ανάλογα με τους διαθέσιμους πόρους μνήμης. Το στοιχείο που περιλαμβάνεται στον απομονωτή στοιχείων χρησιμοποιείται για να ενημερώσει τις αρχικές εικασίες στις παραμέτρους του προτύπου σε κάθε μια από τις συστάδες Κ σε όλα τα πρότυπα μ. Μερικά από τα στοιχεία που ανήκουν σε μια συστάδα συνοψίζονται ή συμπιέζονται και αποθηκεύονται ως μειωμένη μορφή των στοιχείων που αντιπροσωπεύουν τις ικανοποιητικές στατιστικές των στοιχείων. Περισσότερο στοιχείο προσεγγίζεται από τη βάση δεδομένων και τα πρότυπα ενημερώνονται. Ένα ενημερωμένο σύνολο παραμέτρων για τις συστάδες καθορίζεται από τα συνοψισμένα στοιχεία (ικανοποιητικές στατιστικές) και τα πρόσφατα επίκτητα στοιχεία. Σταματώντας τα κριτήρια αξιολογείται για να καθορίσει εάν προσεγγιστούν τα περαιτέρω στοιχεία από τη βάση δεδομένων. Εάν το περαιτέρω στοιχείο απαιτείται για να χαρακτηρίσει τις συστάδες, περισσότερο στοιχείο συγκεντρώνεται από τη βάση δεδομένων και χρησιμοποιείται σε συνδυασμό με τα ήδη συμπιεσμένα στοιχεία έως ότου έχουν ικανοποιηθεί τα σταματώντας κριτήρια.

 
Web www.patentalert.com

< (none)

< Self moderated virtual communities

> Intelligent device having background caching of web pages from a digital television broadcast signal and method of same

> (none)

~ 00033