System, method, and program product for identifying and describing topics in a collection of electronic documents

   
   

To identify and describe one or more topics in one or more documents in a document set, a term set process creates a basic term set from the document set where the term set comprises one or more basic terms of one or more words in the document. A document vector process then creates a document vector for each document. The document vector has a document vector direction representing what the document is about. A topic vector process then creates one or more topic vectors from the document vectors. Each topic vector has a topic vector direction representing a topic in the document set. A topic term set process creates a topic term set for each topic vector that comprises one or more of the basic terms describing the topic represented by the topic vector. Each of the basic terms in the topic term set associated with the relevancy of the basic term. A topic-document relevance process creates a topic-document relevance for each topic vector and each document vector. The topic-document relevance representing the relevance of the document to the topic. A topic sentence set process creates a topic sentence set for each topic vector that comprises of one or more topic sentences that describe the topic represented by the topic vector. Each of the topic sentences is then associated with the relevance of the topic sentence to the topic represented by the topic vector.

Para identificar y para describir unos o más asuntos en unos o más documentos en un sistema de documento, un proceso determinado del término crea un término básico fijado del sistema de documento donde el sistema del término abarca unos o más términos básicos de unas o más palabras en el documento. Un proceso del vector del documento entonces crea un vector del documento para cada documento. El vector del documento tiene una representación de la dirección del vector del documento sobre cuál el documento está. Un proceso del vector del asunto entonces crea unos o más vectores del asunto de los vectores del documento. Cada vector del asunto tiene una dirección del vector del asunto el representar de un asunto en el sistema de documento. Un proceso determinado del término del asunto crea un término del asunto fijado para cada vector del asunto que abarque uno o más de los términos básicos que describen el asunto representado por el vector del asunto. Cada uno de los términos básicos en el asociado determinado del término del asunto con la importancia del término básico. Un proceso de la importancia del asunto-documento crea una importancia del asunto-documento para cada vector del asunto y cada vector del documento. La importancia del asunto-documento que representa la importancia del documento al asunto. Un proceso determinado de la oración de asunto crea una oración de asunto fijada para cada vector del asunto que abarque de unas o más oraciones de asunto que describan el asunto representado por el vector del asunto. Cada uno de las oraciones de asunto entonces se asocia a la importancia de la oración de asunto al asunto representado por el vector del asunto.

 
Web www.patentalert.com

< Event occurrence detection method and apparatus

< Method for controlling reutilization of data space in virtual tape system

> Unique ID management in disconnected database replication

> Storage controller configured to select unused regions of a storage device for data storage according to head position

~ 00124