The method of this invention identifies distinctive items of information from a larger body of information on the basis of similarities or dissimilarities among the items and achieves a significant increase in speed as well as the ability to balance the representativeness and diversity among the identified items by applying selection criteria to randomly chosen subsamples of all the information. The method is illustrated with reference to the compound selection requirements of medicinal chemists. Compound selection methods currently available to chemists are based on maximum or minimum dissimilarity selection or on hierarchical clustering. The method of the invention is more general and incorporates maximum and minimum dissimilarity-based selection as special cases. In addition, the number of iterations required to select the items is a multiple of the group size which, at its greatest, is approximately the square root of the population size. Thus, the selection method runs much faster than the methods of the prior art. Further, by adjusting the subsample size parameter K, it is possible to control the balance between representativeness and diversity in the compounds selected. In addition, the method can mimic the distributional properties of selections based on hierarchical clustering and, at least in some cases, improve upon them.

Il metodo di questa invenzione identifica gli articoli distintivi delle informazioni da un più grande corpo delle informazioni in base alle somiglianze o alle diversità fra gli articoli e realizza un aumento significativo nella velocità così come la capacità di equilibrare la rappresentatività e la diversità fra gli articoli identificati applicando i criteri di selezione ai sottocampioni a caso scelti di tutte le informazioni. Il metodo è illustrato per quanto riguarda i criteri di selezione compound dei chimici medicinali. I metodi compound di selezione attualmente disponibili ai chimici sono basati sulla selezione massima o minima di diversità o sul ragruppare gerarchico. Il metodo dell'invenzione è più generale e comprende il massimo e la selezione diversità-basata minimo come casi speciali. In più, il numero di ripetizioni richieste per selezionare gli articoli è un multiplo del formato del gruppo che, al relativo più grande, è approssimativamente la radice quadrata del formato della popolazione. Quindi, il metodo di selezione funziona molto più velocemente dei metodi dell'arte anteriore. Più ulteriormente, registrando il parametro K di formato del sottocampione, è possibile controllare l'equilibrio fra la rappresentatività e la diversità nei residui selezionati. In più, il metodo può imitare le proprietà distributive delle selezioni basate sul ragruppare gerarchico e, almeno in alcuni casi, migliorare su loro.

 
Web www.patentalert.com

< Processes for the synthesis of oligonucleotide compounds

< Strain manipulation and improvement in the edible seaweed Porphyra

> Drosophila recombination-associated protein and methods for use

> Crystalline farnesyl protein transferase compositions and methods for use

~ 00064