transAlign: utiliser des acides aminés pour faciliter l’alignement multiple des séquences d’ADN codant des protéines

0 Comments

transAlign peut lire automatiquement les séquences D’ADN dans l’un des quatre formats: fasta, nexus , Classic ou « extended » PHYLIP, Il peut également écrire l’alignement final dans l’un de ces mêmes formats. (La Conversion vers ou à partir de formats supplémentaires peut être effectuée via d’autres programmes tels que readSeq ou sreformat, faisant partie du package HMMER .,) Un filtrage de base des séquences D’ADN est également mis en œuvre, y compris le décapage des lacunes (soit toutes les lacunes ou seulement celles qui flanquent une séquence) et la suppression des séquences avec plus d’un pourcentage défini par l’utilisateur de nucléotides Ambigus (c.-À-D., Ns).

après le traitement initial des séquences D’ADN, transAlign déterminera la traduction optimale pour chaque séquence en fonction de l’un des codes génétiques répertoriés par le NCBI . Il est également possible pour les données formatées Se-Al d’avoir différents codes génétiques spécifiés pour chaque séquence., Dans la mesure du possible, transAlign traduit des codons contenant des nucléotides ambigus (mais pas des lacunes explicites). La traduction optimale est considérée comme celle produisant le moins de codons stop à l’exclusion du codon terminal. Par défaut, seules les trois trames de lecture pour l’orientation d’entrée sont examinées; cependant, il est possible d’examiner également les orientations complétées, inversées et complétées en sens inverse., Pour des orientations tout aussi optimales, transAlign privilégie celle qui perturbe le moins la séquence D’ADN originale: dans l’ordre, 1) l’orientation en entrée, suivie des deuxième et troisième trames de lecture dans cette orientation, puis des trames de lecture respectives dans chacune des 2) orientations complémentaires, 3) inverses et 4) orientations inverses-complémentaires.

transAlign passe ensuite les séquences traduites à ClustalW pour l’alignement (selon l’une des matrices de pondération des protéines BLOSUM, GONNET ou PAM) et traduit les séquences de résidus alignées résultantes en séquences d’ADN alignées., ClustalW a été choisi parce qu’il s’agit peut-être du programme d’alignement multiple le plus connu et le plus utilisé. Il offre également le plus grand choix de matrices de transition d’acides aminés (BLOSUM, GONNET et PAM) et la possibilité de faire des alignements de profil (Voir ci-dessous). Cependant, de légères modifications au code transAlign permettraient d’utiliser tout programme d’alignement multiple approprié qui accepte des données de séquence de protéines en entrée (par exemple, DIALIGN2 avec sa sortie de type Clustal en particulier)., Quel que soit le programme d’alignement utilisé, on s’attend à ce qu’une augmentation de la vitesse et de la précision par rapport à l’alignement des séquences en tant qu’ADN se produise toujours étant donné les nombreux avantages de l’alignement des séquences D’ADN codant des protéines en tant qu’acides aminés (voir ci-dessus).

une option est également fournie pour supprimer automatiquement toutes les séquences mal alignées telles que déterminées par les alignements par paires initiaux effectués par ClustalW. Cette fonctionnalité est principalement destinée à supprimer les séquences problématiques des pipelines d’alignement, où il est difficile d’améliorer (manuellement) l’alignement global par la suite., Pour chaque séquence, la moyenne de ses scores d’alignement par paires est comparée à celle entre toutes les séquences restantes selon un test t à deux échantillons à une queue corrigé pour des comparaisons multiples. En tant que telle, la procédure est la plus efficace pour identifier des séquences problématiques isolées, qui pourraient dériver de l’inclusion d’un paraloge potentiel ou simplement d’une séquence mal identifiée. Les familles de telles séquences (par exemple, si l’ensemble de données contient de nombreuses copies de chacun des paralogues d’une famille de gènes) sont moins susceptibles d’être détectées.,

parce que ClustalW ignore les acides aminés ambigus et arrête les codons (aucun n’étant présent dans les matrices de transition d’acides aminés), transAlign les traduit initialement comme des lacunes pour permettre la rétrotraduction. Cette procédure ne pose aucun problème à moins que le résidu ambigu ou le codon d’arrêt ne soit adjacent à un espace déduit par la procédure d’alignement, où il pourrait être placé au début ou à la fin de l’espace. Pour les résidus Ambigus provenant de codons incomplets, transAlign détermine le plus optimal des deux emplacements en fonction de la concordance du ou des nucléotides manquants avec l’écart., Cependant, tous ces cas devraient toujours être examinés et, si nécessaire, corrigés individuellement lors de l’inspection manuelle qui suit toute procédure d’alignement automatisée.

de toute évidence, l’utilisation de transAlign est limitée aux séquences d’ADN codantes et ne doit pas être utilisée pour L’ADN non codant, que ce soit pour des gènes tels que l’ADNR 18S (= MTRNR2; ); l’UTR flanquant, les régions régulatrices ou introniques des gènes; ou les séquences microsatellites. La procédure est également affectée par des décalages de trame (par exemple, des erreurs de séquençage)., Par conséquent, transAlign émettra au minimum un avertissement pour chaque séquence contenant plus d’un seuil spécifié par l’utilisateur de codons d’arrêt (à l’exclusion du codon terminal) dans l’orientation optimale. Ce seuil peut être un nombre absolu de codons stop (par défaut) ou un pourcentage de codons stop dans la séquence restante après la rencontre du premier codon stop., Bien que cette procédure soit généralement robuste, elle est moins susceptible de détecter des décalages de trame qui se produisent près de l’une ou l’autre extrémité d’une séquence donnée en raison de la probabilité réduite d’un codon d’arrêt erroné apparaissant dans les quelques résidentes restantes.

trois solutions globales pour toutes les séquences décalées de trame sont implémentées dans transAlign: 1) Suppression, 2) alignement en utilisant les séquences traduites indépendamment (avec les erreurs associées), ou 3) alignement ultérieur du profil en tant qu’ADN à l’ensemble aligné de séquences non décalées de trame (par défaut)., Cette dernière option est la plus lente des trois, mais permet à toutes les séquences d’être alignées aussi solidement que possible. De plus, même un alignement partiel du profil sera toujours plus rapide que l’alignement de toutes les séquences en tant qu’ADN (Figure 1), quelle que soit l’accélération réelle inhérente à l’alignement des séquences d’acides aminés plus courtes. Cependant, les performances diminueront rapidement à mesure que la proportion de séquences décalées dans l’ensemble de données augmentera., Par exemple, en supposant une accélération de 9x pour aligner les acides aminés par rapport à L’ADN (qui, comme mentionné, est la valeur attendue basée uniquement sur des considérations de longueur), le gain de temps global ne sera que d’environ 2x si les séquences décalées de trame comprennent 25% de toutes les séquences (voir Figure 1). Enfin, pour faciliter l’inspection manuelle de l’ensemble de données, transAlign tentera également d’inférer des emplacements putatifs pour les indels à déplacement de trame sur la base d’une comparaison des écarts entre les séquences alignées sur les acides aminés et les séquences alignées sur le profil de l’ADN.,

Figure 1

gain Théorique de la vitesse, de l’exercice d’une traduction de l’alignement. La figure révèle qu’il y a toujours un avantage de performance à aligner une proportion donnée des séquences D’ADN codant des protéines dans un ensemble de données via leurs traductions d’acides aminés avec les séquences D’ADN restantes alignées ultérieurement sur leur profil., La courbe indiquée est basée sur l’hypothèse que l’alignement traduit est en moyenne 9 fois plus rapide que l’alignement respectif de L’ADN; d’autres valeurs produisent des courbes presque identiques d’échelles différentes.

comme mentionné ci-dessus, transAlign produira les séquences d’ADN alignées dans tout ou partie des formats fasta, nexus, PHYLIP (classique ou étendu) ou Se-al. Par défaut, les séquences sont sorties par ordre alphabétique en fonction de leur nom., Cependant, il est également possible de les sortir pour correspondre à leur ordre dans le fichier d’entrée d’origine ou comme ils ont été sortis de L’alignement ClustalW. Cette dernière option est particulièrement utile pour identifier les « familles » de séquences similaires ou celles qui ont été alignées sur le profil afin de faciliter toute correction manuelle de l’alignement global.

transAlign est écrit en Perl et est open source. Il fonctionnera sur n’importe quel système d’exploitation avec un interpréteur Perl et est piloté en ligne de commande. Cependant, il dispose également d’un mode interactif où l’utilisateur est invité à définir toutes les variables pertinentes., Il nécessite qu’une version appelable à distance de ClustalW soit présente dans le chemin global ou dans un chemin spécifié par l’utilisateur. Encore une fois, cependant, de légères modifications au code permettraient d’utiliser tout programme d’alignement multiple approprié.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *