Very-large-scale automatic categorizer for web content

   
   

A method and apparatus for efficiently classifying and categorizing data objects such as electronic text, graphics, and audio based documents within very-large-scale hierarchical classification trees is provided. In accordance with one embodiment of the invention, a first node of a plurality of nodes of a subject hierarchy is selected. Previously classified data objects corresponding to a selected first node of a subject hierarchy as well as any associated sub-nodes of the selected node are aggregated to form a content class of data objects. Similarly, data objects corresponding to sibling nodes of the selected node and any associated sub-nodes of the sibling nodes are then aggregated to form an anti-content class of data objects. Features are then extracted from each of the content class of data objects and the anti-content class of data objects to facilitate characterization of said previously classified data objects.

Un método y un aparato para eficientemente clasificar y categorizar objetos de los datos tales como texto electrónico, gráficos, y documentos basados audio dentro muy-grande-escalan árboles jerárquicos de la clasificación se proporciona. De acuerdo con una encarnación de la invención, un primer nodo de una pluralidad de nodos de una jerarquía sujeta se selecciona. Los datos previamente clasificados se oponen corresponder a un primer nodo seleccionado de una jerarquía sujeta tan bien como cualquier secundario-nodo asociado del nodo seleccionado se agrega para formar una clase contenta de los objetos de los datos. Semejantemente, los objetos de los datos que corresponden a los nodos del hermano del nodo seleccionado y cualquier secundario-nodo asociado de los nodos del hermano entonces se agregan para formar una clase del contra-contenido de los objetos de los datos. Las características entonces se extraen de cada uno de la clase contenta de los objetos de los datos y de la clase del contra-contenido de los objetos de los datos para facilitar la caracterización de los objetos previamente clasificados dichos de los datos.

 
Web www.patentalert.com

< IP web based messaging system for localized management of wireless messaging

< Intelligent patch checker

> Insertable block tile for interconnecting to a device embedded in an integrated circuit

> Fast failover database tier in a multi-tier transaction processing system

~ 00147