A schema discovery system and associated method discover a majority schema for a set of related and similarly marked up documents, such as HTML documents, based on the assumption that though the structure of these documents is mostly for visual purposes, the keywords used in the documents along with the structural tags provide some hints, and allow a rough sketch of the underlying intended schema. With the assumption that albeit the set of HTML documents are marked up differently due to diverse authoring skills, they are closely related in content, it is reasonable to find a schema that can unify these different schemas, which schema is shared by the majority of these HTML documents. The system employs constraint rules on tree ordering to reduce the computational complexity in arriving at optimized XML DTD schema. These generalized XML DTD schemas may be used to perform automated comparison and evaluation schemes of profile documents on the WWW.

Un sistema di scoperta dello schema e un metodo collegato scoprono uno schema di maggioranza per un insieme di relativo e contrassegnato similmente sui documenti, quali i documenti del HTML, basati sul presupposto che anche se la struttura di questi documenti è principalmente per gli scopi visivi, le parole chiavi usate nei documenti con le modifiche strutturali forniscono alcuni suggerimenti e permettono un abbozzo approssimativo dello schema progettato di fondo. Con il presupposto che anche se l'insieme del HTML documenta sono contrassegnati su diversamente dovuto le abilità creanti varie, strettamente sono collegati nel soddisfare, esso è ragionevole da trovare uno schema che può unificare questi schemi differenti, che lo schema è ripartito dalla maggior parte di questi documenti del HTML. Il sistema impiega le regole di vincolo sull'albero che ordina per ridurre la complessità di calcolo nell'arrivare allo schema ottimizzato del DTD di XML. Questi schemi generalizzati del DTD di XML possono essere usati per effettuare gli schemi automatizzati di valutazione e di confronto dei documenti di profilo sul WWW.

 
Web www.patentalert.com

< Operator for correlated predicates in a query

< Externalizing very large objects in a relational database client/server environment

> Case-based reasoning system and method with a search engine that compares the input tokens with view tokens for matching cases within view

> Database fine-grained access control

~ 00080