Improved duplicate and near-duplicate detection techniques may assign a
number of fingerprints to a given document by (i) extracting parts from
the document, (ii) assigning the extracted parts to one or more of a
predetermined number of lists, and (iii) generating a fingerprint from
each of the populated lists. Two documents may be considered to be
near-duplicates if any one of their fingerprints match.
Οι βελτιωμένες διπλές και κοντινός-διπλές τεχνικές ανίχνευσης μπορούν να ορίσουν διάφορα δακτυλικά αποτυπώματα σε ένα δεδομένο έγγραφο με (ι) την εξαγωγή των μερών από το έγγραφο, (II) ορίζοντας τα αποσπασματικά μέρη σε ένας ή περισσότεροι από έναν προκαθορισμένο αριθμό καταλόγων, και (III) παράγοντας ένα δακτυλικό αποτύπωμα από κάθε έναν από τους εποικημένους καταλόγους. Δύο έγγραφα μπορούν να θεωρηθούν κοντινός-αντίγραφα εάν οποιοδήποτε από τα δακτυλικά αποτυπώματά τους ταιριάζει με.