Method for estimating coverage of web search engines

   
   

A computerized method is used to estimate the relative coverage of Web search engines. Each search engine maintains an index of words of pages located at specific URL addresses in a network. The method generates a random query. The random query is a logical combination of words found in a subset of the pages. The random query is submitted to a first search engine. In response a set of URLs of pages matching the query are received. Each URL identifies a page indexed by the first search engine that satisfies the random query. A particular URL identifying a sample page is randomly selected. A strong query corresponding to the sample page is generated, and the strong query is submitted to a second search engine. Result information received in response to the strong query is compared to determine if the second search engine has indexed the sample page, or a page substantially similar to the sample page. This procedure is repeated to gather statistical data which is used to estimate the relative sizes and amount of overlap of search engines.

Un método automatizado se utiliza para estimar la cobertura relativa de los motores de búsqueda del Web. Cada Search Engine mantiene un índice de palabras de las páginas establecidas en las direcciones de URL específicas en una red. El método genera una pregunta al azar. La pregunta al azar es una combinación lógica de las palabras encontradas en un subconjunto de las páginas. La pregunta al azar se somete a un primer Search Engine. En respuesta un sistema de URLs de las páginas que emparejan la pregunta se recibe. Cada URL identifica una página puesta en un índice por el primer Search Engine que satisface la pregunta al azar. Un URL particular que identifica una página de la muestra se selecciona aleatoriamente. Una pregunta fuerte que corresponde a la página de la muestra se genera, y la pregunta fuerte se somete a un segundo Search Engine. La información del resultado recibida en respuesta a la pregunta fuerte se compara para determinarse si el segundo Search Engine ha puesto en un índice la página de la muestra, o una página substancialmente similar a la página de la muestra. Este procedimiento se repite para recopilar los datos estadísticos que se utiliza para estimar los tamaños y la cantidad relativos de traslapo de los motores de búsqueda.

 
Web www.patentalert.com

< System and method for maintaining a user's state within a database table and for accommodating null values

< Information search apparatus and method, and storage medium

> Method and apparatus for improving message availability in a subsystem which supports shared message queues

> Method and apparatus for tracking data in a database, employing last-known location registers

~ 00105