Filter for checking for duplicate entries in database

   
   

A system for determining whether a record-to-be-added to a database is a duplicate of an existing record. The database is first processed, to generate a library of signatures, one for each record. For example, assume each record contains a phrase. The signature may be a concatenation of the first letters of each word in the phrase. Thus, the signature for "Cats like milk" would be CLM. After generation of the library, when a new record is to be added to the database, a signature is generated for the new record. That signature is compared with the library. In this example, if the new record is "Cats like milk," and if "CLM" is not found in the library, then it is conclusively known that "Cats like milk" is not present in the database. The new record can be added, without fear of duplication. However, if "CLM" is found in the library, that fact is not dispositive. "CLM" could be present because of the different phrase "Cats like mice" in a record. If such a matching signature is found, then human intervention is called for, to determine whether the new record duplicates an existing record.

Um sistema para determinar se grav-à-est-adicionado uma base de dados é uma duplicata de um registro existente. A base de dados é processada primeiramente, para gerar uma biblioteca das assinaturas, uma para cada registro. Para o exemplo, suponha que cada registro contem uma frase. A assinatura pode ser uma concatenação das primeiras letras de cada palavra na frase. Assim, a assinatura para "gatos como o leite" seria CLM. Após a geração da biblioteca, quando um registro novo deve ser adicionada à base de dados, uma assinatura é gerada para o registro novo. Essa assinatura é comparada com a biblioteca. Neste exemplo, se o registro novo for "gatos como o leite," e se o "CLM" não for encontrado na biblioteca, a seguir nela é sabido conclusively que os "gatos como o leite" não estão atuais na base de dados. O registro novo pode ser adicionado, sem medo da duplicação. Entretanto, se o "CLM" for encontrado na biblioteca, esse fato não é dispositive. o "CLM" podia estar atual por causa da frase diferente "gatos como ratos" em um registro. Se uma assinatura tão combinando for encontrada, a intervenção humana está chamada então para, para determinar se o registro novo duplica um registro existente.

 
Web www.patentalert.com

< UV water disinfector

< Method of manufacturing a semiconductor device with leveling of a surface of a semiconductor film through irradiation

> Encoded-data database for fast queries

> Content addressable memory having sections with independently configurable entry widths

~ 00138