This mechanism relates to a method within the area of information mining within a multitude of documents stored on computer systems. More particularly, this mechanism relates to a computerized method of generating a content taxonomy of a multitude of electronic documents. The technique proposed by the current invention is able to improve at the same time the scalability and the coherence and selectivity of taxonomy generation. The fundamental approach of the current invention comprises a subset selection step, wherein a subset of a multitude of documents is being selected. In a taxonomy generation step a taxonomy is generated for that selected subset of documents, the taxonomy being a tree structured taxonomy hierarchy. Moreover this method comprises a routing selection step assigning each unprocessed document to the taxonomy hierarchy based on largest similarity.

Dit mechanisme heeft op een methode betrekking binnen het gebied van informatiemijnbouw binnen een massa documenten die op computersystemen worden opgeslagen. Meer in het bijzonder, heeft dit mechanisme op een geautomatiseerde methode om een inhoudstaxonomie betrekking van een massa elektronische documenten te produceren. De techniek die door de huidige uitvinding wordt voorgesteld kan scalability en de coherentie en de selectiviteit van taxonomiegeneratie tezelfdertijd verbeteren. De fundamentele benadering van de huidige uitvinding bestaat uit een stap van de ondergroepsselectie, waarin een ondergroep van een massa documenten wordt geselecteerd. In een stap van de taxonomiegeneratie wordt een taxonomie geproduceerd voor die geselecteerde ondergroep van documenten, de taxonomie die een boom gestructureerde taxonomiehiërarchie is. Bovendien bestaat deze methode uit een het leiden selectiestap toewijzend elk onverwerkt document aan de taxonomiehiërarchie die op grootste gelijkenis wordt gebaseerd.

 
Web www.patentalert.com

< (none)

< Method and apparatus for improving the performance of a generated code cache search operation through the use of static key values

> Product information label

> (none)

~ 00044