Method and system for information extraction

   
   

A method and a system for extracting information from a natural language text corpus based on a natural language query are disclosed. In the method the natural language text corpus is analyzed with respect to surface structure of word tokens and surface syntactic roles of constituents, and the analyzed natural language text corpus is then indexed and stored. Furthermore a natural language query is analyzed with respect to surface structure of word tokens and surface syntactic roles of constituents. From the analyzed natural language query one or more surface variants are then created, where these surface variants are equivalent to the natural language query with respect to lexical meaning of word tokens and surface syntactic roles of constituents. The surface variants are then compared with the indexed and stored analyzed natural language text corpus, and each portion of text comprising a string of word tokens that matches the any one of the surface variants or the natural language query is extracted from the indexed and stored analyzed natural language text corpus.

Een methode en een systeem om informatie uit een natuurlijke taalcorpus te halen dat op een natuurlijke taalvraag wordt gebaseerd worden onthuld. In de methode wordt het natuurlijke taalcorpus geanalyseerd met betrekking tot oppervlaktestructuur van woordtekenen en oppervlakte syntactische rollen van constituenten, en het geanalyseerde natuurlijke taalcorpus wordt dan geïndexeerd en opgeslagen. Verder wordt een natuurlijke taalvraag geanalyseerd met betrekking tot oppervlaktestructuur van woordtekenen en oppervlakte syntactische rollen van constituenten. Van de geanalyseerde natuurlijke taalvraag worden één of meerdere oppervlaktevarianten dan gecreeerd, waar deze oppervlaktevarianten aan de natuurlijke taalvraag met betrekking tot lexicale betekenis van woordtekenen en oppervlakte syntactische rollen van constituenten gelijkwaardig zijn. De oppervlaktevarianten worden dan vergeleken met het geïndexeerde en opgeslagen geanalyseerde natuurlijke taalcorpus, en elk gedeelte dat van tekst uit een koord van woordtekenen dat bestaat om het even wie van de oppervlaktevarianten of de natuurlijke taalvraag aanpast wordt gehaald uit het geïndexeerde en opgeslagen geanalyseerde natuurlijke taalcorpus.

 
Web www.patentalert.com

< Client-specified display services in a distributed computing environment

< Network switch using network processor and methods

> Usage based strength between related information in an information retrieval system

> Symbolic simulation driven netlist simplification

~ 00154