A system and method for document retrieval is disclosed. The invention addresses a major problem in text-based document retrieval: rapidly finding a small subset of documents in a large document collection (e.g. Web pages on the Internet) that are relevant to a limited set of query terms supplied by the user. The invention is based on utilizing information contained in the document collection about the statistics of word relationships ("context") to facilitate the specification of search queries and document comparison. The method consists of first compiling word relationships into a context database that captures the statistics of word proximity and occurrence throughout the document collection. At retrieval time, a search matrix is computed from a set of user-supplied keywords and the context database. For each document in the collection, a similar matrix is computed using the contents of the document and the context database. Document relevance is determined by comparing the similarity of the search and document matrices. The disclosed system therefore retrieves documents with contextual similarity rather than word frequency similarity, simplifying search specification while allowing greater search precision.

Un sistema e un metodo per ricerca documentaria è rilevato. L'invenzione richiama un problema importante nella ricerca documentaria basato del testo: velocemente trovando un piccolo sottoinsieme dei documenti in una grande collezione del documento (per esempio Web pagi sul Internet) che è relativo ad un insieme limitato dei termini di domanda ha fornito dall'utente. L'invenzione è basata sull'utilizzazione delle informazioni contenute nell'accumulazione del documento circa le statistiche dei rapporti di parola ("contesto") per facilitare la specifica delle domande di ricerca e del confronto del documento. Il metodo consiste di in primo luogo compilare i rapporti di parola in una base di dati di contesto che blocca le statistiche di prossimità e del caso di parola durante l'accumulazione del documento. A tempo di ricupero, una tabella di ricerca è computata da un insieme delle parole chiavi user-supplied e della base di dati di contesto. Per ogni documento nell'accumulazione, una tabella simile è computata usando il contenuto del documento e della base di dati di contesto. L'attinenza del documento è determinata confrontando la somiglianza delle tabelle del documento e di ricerca. Il sistema rilevato quindi ricerca i documenti con somiglianza contestuale di frequenza di parola piuttosto che di somiglianza, facilitante la specifica di ricerca mentre permette la precisione più grande di ricerca.

 
Web www.patentalert.com

< (none)

< Distributed data retrieval system including mechanism for predicting an amount of response data

> Method and apparatus for performing distinct types of radix searches

> (none)

~ 00086