Learning data prototypes for information extraction

   
   

A method for determining statistically significant token sequences lends itself for use in the recognition of broken wrappers as well as the construction of new wrapper rules. When new wrapper rules are needed as the underlying wrapped data has changed, training examples are used to recognized data rule candidates that are culled with a bias for rule candidates that would be probably more successful. The resulting rule candidate set is clustered according to feature characteristics, then compared to the training examples. Those rule candidates most similar to the training examples are used to create new wrapper rules.

Une méthode pour déterminer statistiquement des ordres symboliques significatifs se prête pour l'usage dans l'identification des emballages cassés aussi bien que la construction de nouvelles règles d'emballage. Quand de nouvelles règles d'emballage sont nécessaires comme données enveloppées fondamentales a changé, des exemples s'exerçants sont employés aux candidats identifiés de règle de données qui sont cueillis avec une polarisation pour les candidats de règle qui seraient probablement plus réussis. L'ensemble résultant de candidat de règle est groupé selon des caractéristiques de dispositif, puis comparé aux exemples de formation. Ceux règnent des candidats les plus semblables aux exemples de formation sont employés pour créer de nouvelles règles d'emballage.

 
Web www.patentalert.com

< Information-object designation system

< Method and system for alternate internet resource identifiers and addresses

> Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system

> Audio/visual method of browsing web pages with a conventional telephone interface

~ 00106