transAlign: ved hjælp af aminosyrer til at lette flere tilpasning af protein-kodende DNA-sekvenser
transAlign kan automatisk læse DNA-sekvenser i en af de fire formater: fasta, nexus , “classic” eller “udvidet” PHYLIP, og Se-Al . Det kan også skrive den endelige justering i nogen af disse samme formater. (Konvertering til eller fra yderligere formater kan opnås gennem andre programmer som readse .eller sreformat, en del af hmmer-pakken.,) Nogle grundlæggende filtrering af DNA-sekvenser er også gennemført, herunder fjernelse af huller (enten helt mangler eller kun de flankerende en sekvens) og sletning af sekvenser med mere end en bruger-defineret procentdel af tvetydige nukleotider (dvs, Ns).
efter den første behandling af DNA-sekvenserne bestemmer transAlign den optimale oversættelse for hver sekvens i henhold til en af de genetiske koder, der er anført af NCBI . Det er også muligt for Se-Al formaterede data at have forskellige genetiske koder specificeret for hver sekvens., Så vidt muligt oversætter transAlign kodoner indeholdende tvetydige nukleotider (men ikke eksplicitte huller). Den optimale oversættelse anses for at være den, der giver de færreste stopkodoner undtagen terminalkodonen. Som standard undersøges kun de tre læsningsrammer for inputorienteringen; det er dog også muligt at undersøge de komplementerede, omvendte og omvendte komplementerede orienteringer., For lige så optimal retningslinjer, transAlign favoriserer den ene forstyrrende oprindelige DNA-sekvens mindst: for i, 1) orientering som input, efterfulgt af den anden og tredje læsning rammer i den retning, og derefter de respektive læserammer i hver af de 2) supplerende, 3) omvendt, og 4) reverse-supplerende retningslinjer.transAlign overfører derefter de oversatte sekvenser til Clustal.til justering (ifølge en hvilken som helst af BLOSSUM -, GONNET-eller PAM-proteinvægtningsmatricer) og oversætter de resulterende justerede restsekvenser til justerede DNA-sekvenser., Clustal.blev valgt, fordi det måske er det bedst kendte og mest anvendte flerjusteringsprogram. Det tilbyder også det største udvalg af aminosyre overgang matricer (BLOSSUM, GONNET, og PAM) og evnen til at gøre profil justeringer (se nedenfor). Imidlertid vil små ændringer af transAlign-koden tillade brug af ethvert egnet flerjusteringsprogram, der accepterer proteinsekvensdata som input (f.eks., Uanset det anvendte justeringsprogram forventes det, at stigninger i både hastighed og nøjagtighed sammenlignet med at tilpasse sekvenserne som DNA stadig ville forekomme i betragtning af de mange fordele ved at tilpasse proteinkodende DNA-sekvenser som aminosyrer (se ovenfor).
Der er også mulighed for automatisk at slette eventuelle Dårligt justerende sekvenser som bestemt af de indledende parvise justeringer udført af Clustal.. Denne funktion er i vid udstrækning beregnet til at fjerne problematiske sekvenser fra justeringsrørledninger, hvor det er vanskeligt (manuelt) at forbedre den globale justering bagefter., For hver sekvens, gennemsnittet af dens parvise justeringsresultater sammenlignes med det mellem alle de resterende sekvenser i henhold til en en-tailed to-prøve t-test korrigeret for flere sammenligninger. Som sådan er proceduren mest effektiv til at identificere isolerede problematiske sekvenser, som kan stamme fra inkluderingen af en potentiel paralog eller blot en forkert identificeret sekvens. Familier af sådanne sekvenser (f if hvis datasættet indeholder talrige kopier af hver af de paraloger fra et gen familie) er mindre tilbøjelige til at blive opdaget.,fordi Clustal.ignorerer tvetydige aminosyrer og stopper kodoner (hverken at være til stede i aminosyreovergangsmatrieserne), oversætter transAlign dem oprindeligt som huller for at tillade back-translation. Denne procedure er uproblematisk, medmindre den tvetydige rest eller stopkodon støder op til et hul udledt af justeringsproceduren, hvor det kunne placeres ved enten begyndelsen eller slutningen af spalten. For tvetydige rester, der stammer fra ufuldstændige kodoner, bestemmer transAlign det mere optimale af de to placeringer baseret på konkordansen af det eller de manglende nukleotid(er) med kløften., Alle sådanne tilfælde bør dog stadig undersøges og om nødvendigt korrigeres for individuelt under den manuelle inspektion, der følger enhver automatiseret justeringsprocedure.
det er Klart, brug af transAlign er begrænset til kodende DNA-sekvenser, og bør ikke bruges til ikke-kodende DNA, uanset om gener såsom 18S, rDNA (= MTRNR2; ); flankerende UTR, lovgivningsmæssige, eller intronic regioner af generne, eller mikrosatellit-sekvenser. Proceduren påvirkes også negativt af rammeskift (f from fra sekventeringsfejl)., Derfor udsender transAlign minimalt en advarsel for hver sekvens, der indeholder mere end en brugerspecificeret tærskel for stopkodoner (undtagen terminalkodonen) i den optimale orientering. Denne tærskel kan enten være et absolut antal stopkodoner (standard) eller en procentdel af stopkodoner i den resterende sekvens, efter at det første stopkodon er stødt på., Selvom denne procedure generelt er robust, er det mindre sandsynligt, at detektere rammeskift, der forekommer nær hver ende af en given sekvens på grund af den reducerede Sandsynlighed for, at et fejlagtigt stopkodon opstår i de få resterende bor.
Tre globale løsninger for enhver frame-skiftet sekvenser, der er gennemført i transAlign: 1) afskaffelse, 2) tilpasning ved hjælp af den oversatte sekvenser uanset (med tilhørende fejl), eller 3) efterfølgende profile alignment af DNA til de opstillede sæt af ikke-frame-skiftet sekvenser (standard)., Sidstnævnte mulighed er den langsomste af de tre, men tillader, at alle sekvenser justeres så robust som muligt. Desuden vil selv en delvis profiljustering altid være hurtigere end at justere alle sekvenser som DNA (Figur 1), uanset den faktiske speedup, der er forbundet med at justere de kortere aminosyresekvenser. Imidlertid vil ydeevnen falde hurtigt, da andelen af rammeskiftede sekvenser i datasættet øges., For eksempel, under forudsætning af en hastighedsforøgelse af 9x til justering af aminosyrer i forhold til DNA (hvilket, som nævnt, er den værdi, der forventes kun baseret på længde overvejelser), den samlede tid at spare vil kun være ca 2x om rammen-skiftet sekvenser udgør 25% af alle sekvenser (se Figur 1). Endelig, for at lette den manuelle inspektion af datasættet, vil transAlign også forsøge at udlede formodede placeringer for rammeskiftende indels baseret på en sammenligning af huller mellem de aminosyrenjusterede og DNA-profiljusterede sekvenser.,
Som nævnt ovenfor, transAlign vil output justeret DNA-sekvenser i nogen eller alle af fasta, nexus, (klassisk eller udvidet) PHYLIP, eller Se-Al-formater. Som standard udsendes sekvenserne i alfabetisk rækkefølge efter deres navn., Det er dog også muligt at udsende dem for at matche deres rækkefølge i den originale inputfil, eller som de blev output fra Clustal. – justeringen. Sidstnævnte mulighed er især nyttig til at identificere “familier” af lignende sekvenser eller de sekvenser, der var profiljusteret for at lette enhver manuel korrektion af den globale justering.transAlign er skrevet i Perl og er open source. Det kører på ethvert operativsystem med en Perl-tolk og er kommandolinjedrevet. Det har dog også en brugerinteraktiv tilstand, hvor brugeren bliver bedt om at indstille alle de relevante variabler., Det kræver, at en fjernopkaldbar version af Clustal.er til stede enten i den globale sti eller i en brugerdefineret. Igen vil små ændringer af koden dog tillade brug af ethvert egnet flerjusteringsprogram.