A multi-lingual indexing and search system performs tokenization and stemming in a manner which is independent of whether index entries and search terms appear as words in a dictionary. During the tokenization phase of the process, a string of text is separated into individual word tokens, and predetermined types of tokens are eliminated from further processing. The stemming phase of the process reduces words to grammatical stems by removing known word-endings associated with the various languages to be supported. Known word endings are removed from the word tokens without any effort to guarantee that the remaining stem is contained in a dictionary. In a preferred implementation, the stemming process is only applied to nouns.

Un sistema multilingue di ricerca e di indexing effettua il tokenization e lo staccamento in un modo da cui è l'indipendente se le entrate di indice ed i termini di ricerca compaiono come parole in un dizionario. Durante la fase di tokenization del processo, una serie di testo è separata nel segno specifico di parola ed i tipi predeterminati di segni sono eliminati dalla trasformazione più ulteriore. La fase di staccamento del processo riduce le parole ai gambi grammaticali dalle parola-conclusioni conosciute di rimozione connesse con le varie lingue da sostenere. Le conclusioni conosciute di parola sono rimosse dal segno di parola senza alcun sforzo garantire che il gambo restante è contenuto in un dizionario. In un'esecuzione preferita, il processo di staccamento è applicato soltanto ai nomi.

 
Web www.patentalert.com

< (none)

< Interrupt routing mechanism for routing interrupts from peripheral bus to interrupt controller

> Vectors and methods for gene transfer to cells

> (none)

~ 00048