An apparatus and method for determining if a query document matches one or more of a plurality of documents in a database. In a coarse matching stage, a compressed file or other query document is scanned to produce a bit profile. Global statistics such as line spacing and text height are calculated from the bit profile and used to narrow the field of documents to be searched in an image database. The bit profile is cross-correlated with bit profiles of documents in the search space to identify candidates for a detailed matching stage. If multiple candidates are generated in the coarse matching stage, a set of endpoint features is extracted from the query document for detailed matching in the detailed matching stage. Endpoint features contain sufficient information for various levels of processing, including page skew and orientation estimation. In addition, endpoint features are stable, symmetric and easily computable from commonly used compressed files including, but not limited to, CCITT Group 4 compressed files. Endpoint features extracted in the detailed matching stage are used to correctly identify a matching document in a high percentage of cases.

Apparaten en een methode om te bepalen als een vraagdocument één of meer van een meerderheid van documenten in een gegevensbestand aanpast. In een ruw passend stadium, worden een samengeperst dossier of ander vraagdocument afgetast om een beetjeprofiel te veroorzaken. De globale statistieken zoals lijn het uit elkaar plaatsen en teksthoogte worden berekend vanaf het beetjeprofiel en gebruikt om het gebied van documenten te versmallen die in een beeldgegevensbestand moeten worden gezocht. Het beetjeprofiel is dwars-gecorreleerd met beetjeprofielen van documenten in de onderzoeksruimte om kandidaten voor een gedetailleerd passend stadium te identificeren. Als de veelvoudige kandidaten in het ruwe passende stadium worden geproduceerd, wordt een reeks eindpunteigenschappen gehaald uit het vraagdocument voor gedetailleerde aanpassing in het gedetailleerde passende stadium. De eigenschappen van het eindpunt bevatten voldoende informatie voor diverse niveaus van verwerking, met inbegrip van paginahelling en richtlijnschatting. Bovendien zijn de eindpunteigenschappen stabiel, symmetrisch en gemakkelijk berekenbaar van algemeen gebruikte samengeperste dossiers met inbegrip van, maar beperkt niet tot, CCITT Groep 4 samengeperste dossiers. De eigenschappen van het eindpunt die in het gedetailleerde passende stadium worden gehaald worden gebruikt om een aanpassingsdocument in een hoog percentage gevallen correct te identificeren.

 
Web www.patentalert.com

< (none)

< Edge enhancement correction for improved image quality

> Produce identification and pricing system for checkouts

> (none)

~ 00030