A web crawler stores fixed length representations of document addresses in first and second caches and a disk file. When the web crawler downloads a document from a host computer, it identifies URL's (document addresses) in the downloaded document. Each identified URL is converted into a fixed size numerical representation. The numerical representation is systematically compared to numerical representations in the caches and disk file. If the representation is not found in the caches and disk file, the document corresponding to the representation is scheduled for downloading, and the representation is stored in the second cache. If the representation is not found in the caches but is found in the disk file, the representation is added to the first cache. When the second cache is full, it is merged with the disk file and the second cache is reset to an initial state. When the first cache is full, one or more representations are evicted in accordance with an eviction policy. The representations include a prefix that is a function of a host component of the corresponding URL's, and the representations are stored in the disk file in sorted order. When the web crawler searches for a representation in the disk file, an index of the disk file is searched to identify a single block of the disk file, and only that single block of the disk file is searched for the representation.

Μια αντιολισθητική αλυσίδα Ιστού αποθηκεύει τις σταθερές αντιπροσωπεύσεις μήκους των διευθύνσεων εγγράφων πρώτα και των δεύτερων κρυπτών και ενός αρχείου δίσκων. Όταν η αντιολισθητική αλυσίδα Ιστού μεταφορτώνει ένα έγγραφο από έναν οικοδεσπότη υπολογιστή, προσδιορίζει URL (διευθύνσεις εγγράφων) στο μεταφορτωμένο έγγραφο. Κάθε προσδιορισμένο URL μετατρέπεται σε μια σταθερή αριθμητική αντιπροσώπευση μεγέθους. Η αριθμητική αντιπροσώπευση συγκρίνεται συστηματικά με τις αριθμητικές αντιπροσωπεύσεις στις κρύπτες και το αρχείο δίσκων. Εάν η αντιπροσώπευση δεν βρίσκεται στις κρύπτες και το αρχείο δίσκων, το έγγραφο που αντιστοιχεί στην αντιπροσώπευση σχεδιάζεται για τη μεταφόρτωση, και η αντιπροσώπευση αποθηκεύεται στη δεύτερη κρύπτη. Εάν η αντιπροσώπευση δεν βρίσκεται στις κρύπτες αλλά βρίσκεται στο αρχείο δίσκων, η αντιπροσώπευση προστίθεται στην πρώτη κρύπτη. Όταν η δεύτερη κρύπτη είναι πλήρης, συγχωνεύεται με το αρχείο δίσκων και η δεύτερη κρύπτη επαναρυθμίζεται σε ένα αρχικό κράτος. Όταν η πρώτη κρύπτη είναι πλήρης, μια ή περισσότερες αντιπροσωπεύσεις εκδιώκονται σύμφωνα με μια πολιτική απέλαση. Οι αντιπροσωπεύσεις περιλαμβάνουν ένα πρόθεμα που είναι μια λειτουργία ενός τμήματος οικοδεσποτών της αντιστοιχίας URL, και οι αντιπροσωπεύσεις αποθηκεύονται στο αρχείο δίσκων στην ταξινομημένη διαταγή. Όταν οι αναζητήσεις αντιολισθητικών αλυσίδων Ιστού μιας αντιπροσώπευσης στο αρχείο δίσκων, ένας δείκτης του αρχείου δίσκων αναζητώνται για να προσδιορίσουν έναν ενιαίο φραγμό του αρχείου δίσκων, και μόνο αυτού ο ενιαίος φραγμός του αρχείου δίσκων αναζητάται για την αντιπροσώπευση.

 
Web www.patentalert.com

< (none)

< Integrated emulsifier and edible fiber

> Method and system for managing access to a plurality of data objects

> (none)

~ 00018