System and method of automatic wrapper grammar generation

   
   

A method for generating a wrapper grammar for a file having a structure of a particular format includes providing at least one sample file of the particular format, where the particular format comprises a plurality of string tokens. Each sample file includes a plurality of tokens (data strings) which may be actual data from the document, an HTML tag or some other grammatical separator. The sample file of the particular format is then processed by annotating attributable tokens with a user-defined attribute, such as Author, Title, etc. from a set of attributes to form an annotated sample set. The annotated sample set is then evaluated to determine if wrapper grammar generation is possible, and if it is possible, a wrapper grammar for the files having a structure of the particular format is generated. Preferably, the annotated sample set is evaluated by determining if all attributes in the annotated sample set are distinguishable from one another.

Une méthode pour produire d'une grammaire d'emballage pour un dossier ayant une structure d'un format particulier inclut fournir au moins un dossier témoin du format particulier, où le format particulier comporte une pluralité de la marque de corde. Chaque dossier témoin inclut une pluralité de marque (cordes de données) qui peut être des données réelles du document, d'une étiquette de HTML ou d'un autre séparateur grammatical. Le dossier témoin du format particulier est alors traité en annotant la marque attribuable avec un attribut défini pour l'utilisateur, tel que l'auteur, le titre, etc. d'un ensemble d'attributs pour former un ensemble annoté témoin. L'ensemble annoté témoin est alors évalué pour déterminer si la génération de grammaire d'emballage est possible, et s'il est possible, une grammaire d'emballage pour les dossiers ayant une structure du format particulier est produite. De préférence, l'ensemble annoté témoin est évalué en déterminant si tous les attributs dans l'ensemble annoté témoin sont distinguables les uns des autres.

 
Web www.patentalert.com

< System and method for performing virtual device I/O operations

< World wide contextual navigation

> Method and system for displaying various messages while performing tasks or while idling

> System, method, and computer program product for administering channels, content, and data for mobile devices

~ 00131