Improved duplicate and near-duplicate detection techniques may assign a number of fingerprints to a given document by (i) extracting parts from the document, (ii) assigning the extracted parts to one or more of a predetermined number of lists, and (iii) generating a fingerprint from each of the populated lists. Two documents may be considered to be near-duplicates if any one of their fingerprints match.

Οι βελτιωμένες διπλές και κοντινός-διπλές τεχνικές ανίχνευσης μπορούν να ορίσουν διάφορα δακτυλικά αποτυπώματα σε ένα δεδομένο έγγραφο με (ι) την εξαγωγή των μερών από το έγγραφο, (II) ορίζοντας τα αποσπασματικά μέρη σε ένας ή περισσότεροι από έναν προκαθορισμένο αριθμό καταλόγων, και (III) παράγοντας ένα δακτυλικό αποτύπωμα από κάθε έναν από τους εποικημένους καταλόγους. Δύο έγγραφα μπορούν να θεωρηθούν κοντινός-αντίγραφα εάν οποιοδήποτε από τα δακτυλικά αποτυπώματά τους ταιριάζει με.

 
Web www.patentalert.com

< System and method for storing and computing data and functions

< Method and apparatus for mapping one catalog into another catalog

> Analyzing data files

> Report searching in a merger and acquisition environment

~ 00093