Method for alignment of DNA sequences with enhanced accuracy and read length

   
   

In order to align DNA sequence data traces, an experimental data trace representing the positions of a first species of base within a target polynucleotide and a reference data trace representing the positions of a second species of base (which may be the same as or different from the first species) within a reference polynucleotide are obtained by separating appropriate sequencing fragments generated from the target and reference polynucleotides on an electrophoresis gel. For each reference data trace, a plurality of peaks corresponding to fragments having a size in the range of 40 to 1200 bases are selected. A base number is assigned to each of the selected peaks in the reference data trace, and a numerical "peak file" is created with information about the peak number and migration time (or distance). This peak file is analyzed to determine a set of polynomial coefficients which will allow substantial linearization of a plot of peak number versus separation between adjacent peaks and alignment of the traces with respect to each other. These coefficients are used to create a corrected time scale identifying where peaks should be located on a given experimental gel. This corrected time scale is used to guide the sampling of the experimental data, and for assignment of peaks within the data.

Afin d'aligner des traces de données d'ordre d'ADN, des données expérimentales tracent représenter les positions de l'les premières espèces de la base dans un polynucleotide de cible et des données de référence tracent représenter les positions de l'les deuxièmes espèces de la base (qui peuvent être les mêmes qu'ou différentes des premières espèces) dans un polynucleotide de référence sont obtenues en séparant les fragments d'ordonnancement appropriés produits de la cible et les polynucleotides de référence sur une électrophorèse gélifient. Pour chaque référence les données tracent, une pluralité de crêtes correspondant aux fragments ayant une taille dans la gamme de 40 à 1200 bases sont choisies. Un numéro de base est assigné à chacune des crêtes choisies dans la trace de données de référence, et "un dossier maximal" numérique est créé avec des informations sur le nombre et le temps de migration (ou la distance) maximal. Ce dossier maximal est analysé pour déterminer un ensemble de coefficients polynômes qui permettront la linéarisation substantielle d'une parcelle de terrain de nombre maximal contre la séparation entre les crêtes et l'alignement adjacents des traces en ce qui concerne l'un l'autre. Ces coefficients sont employés pour créer une échelle de temps corrigée identifiant où des crêtes devraient être situées sur un gel expérimental donné. Cette échelle de temps corrigée est employée pour guider le prélèvement des données expérimentales, et pour l'attribution des crêtes dans les données.

 
Web www.patentalert.com

< Database system for predictive cellular bioinformatics

< Inbred tetraploid watermelon line 90-4194

> Factor VII glycoforms

> Compositions and methods for the therapeutic use of an atonal-associated sequence for deafness, osteoarthritis, and abnormal cell proliferation

~ 00118