Method and system for indexing and searching contents of extensible mark-up language (XML) documents

   
   

A method and a computer system for indexing and searching the data content of nested field records, such as those in Extensible Markup Language (XML). The system includes an indexing and searching engine that constructs an improved full-text search index on the input XML data and then performs searches using the index. The system supports exact matches and partial matches using a wildcard character. The method transforms the input XML data into a form that encodes the data structural information by suffixing each word with its corresponding field qualifiers or an equivalent numerical pattern thereof. The resulting encoded words are then stored in a full-text index structure. Various types of full-index search may be performed. One alternative embodiment is to combine string matching and numeric or integer pattern matching to identify a particular word in a particular field. The portion of the word without field qualifiers is matched against the words in the index, and the pattern of numerals representing the word's field qualifiers is matched against the numeral patterns of the words in the index that correspond to their respective field qualifiers. Therefore, evaluation of complex field criteria is reduced to simpler and faster numeric matching.

Une méthode et un système informatique pour l'indexation et rechercher la teneur en données des disques nichés de champ, de ce type en Extensible Markup Language (XML). Le système inclut un moteur d'indexation et de recherche qui construit un index à texte intégral amélioré de recherche sur les données de l'entrée XML et puis exécute des recherches en utilisant l'index. Le système soutient les allumettes exactes et les allumettes partielles en utilisant un caractère de wildcard. La méthode transforme les données de l'entrée XML en forme qui code l'information structurale de données en suffixant chaque mot avec ses qualificateurs correspondants de champ ou un modèle numérique équivalent en. Les mots codés résultants sont alors stockés dans une structure à texte intégral d'index. De divers types de recherche d'plein-index peuvent être exécutés. Une incorporation alternative doit combiner la corde s'assortissant et s'assortissant numérique ou de nombre entier de modèle pour identifier un mot particulier dans un domaine particulier. La partie du mot sans qualificateurs de champ est assortie contre les mots dans l'index, et le modèle des numéros représentant les qualificateurs du champ du mot est assorti contre les modèles numéraux des mots dans l'index qui correspondent à leurs qualificateurs respectifs de champ. Par conséquent, l'évaluation des critères complexes de champ est réduite à un assortiment plus simple et plus rapidement numérique.

 
Web www.patentalert.com

< Concurrent evaluation of multiple filters with runtime substitution of expression parameters

< Method and apparatus for prioritizing data change requests and maintaining data consistency in a distributed computer system equipped for activity-based collaboration

> Method to invoke wide-area objects in distributed computer systems

> Method and apparatus for evaluating queries against received event information

~ 00126