transAlign: med hjälp av aminosyror för att underlätta flera inriktningen av proteinkodande DNA-sekvenser

0 Comments

transAlign kan automatiskt läsa DNA-sekvenser i något av fyra format: fasta, nexus, classic eller ”extended” PHYLIP, och se-Al . Det kan också skriva den slutliga inriktningen i något av dessa samma format. (Konvertering till eller från Ytterligare format kan åstadkommas genom andra program som readSeq eller sreformat, en del av hmmer paketet .,) En del grundläggande filtrering av DNA-sekvenserna genomförs också, inklusive strippning av luckor (antingen alla luckor eller endast de flankerar en sekvens) och raderar sekvenser med mer än en användardefinierad procentandel av tvetydiga nukleotider (dvs Ns).

efter den första behandlingen av DNA-sekvenserna kommer transAlign att bestämma den optimala översättningen för varje sekvens enligt någon av de genetiska koder som NCBI listar . Det är också möjligt för se-Al-formaterade data att ha olika genetiska koder specificerade för varje sekvens., Så långt som möjligt översätter transAlign kodon som innehåller tvetydiga nukleotider (men inte uttryckliga luckor). Den optimala översättningen anses vara att ge minst antal stoppkodon exklusive terminalkodon. Som standard undersöks endast de tre läsramarna för inmatningsorienteringen. det är dock möjligt att undersöka de kompletterade, omvända och omvända komplementerade orienteringarna också., För lika optimala inriktningar gynnar transAlign den som stör den ursprungliga DNA-sekvensen minst: i ordning 1) orienteringen som inmatning, följt av den andra och tredje läsramarna i den orienteringen, och sedan respektive läsramar i var och en av de 2) kompletterande, 3) omvänd och 4) Omvänd komplementära orienteringar.

transAlign passerar sedan de översatta sekvenserna till ClustalW för justering (enligt någon av BLOSUM, GONNET eller PAM protein viktning matriser) och back-översätter de resulterande inriktade Rest sekvenser i linje DNA-sekvenser., ClustalW valdes eftersom det är kanske den mest kända och mest använda flera inriktningsprogram. Det erbjuder också det största valet av aminosyraövergångsmatriser (BLOSUM, GONNET och PAM) och förmågan att göra profiljusteringar (se nedan). Små modifieringar av transAlign-koden skulle dock tillåta användningen av något lämpligt program för flera inriktningar som accepterar proteinsekvensdata som inmatning (t.ex. DIALIGN2 med dess Clustal-liknande utmatning i synnerhet)., Oavsett anpassningsprogrammet som används förväntas det öka både hastighet och noggrannhet jämfört med att anpassa sekvenserna eftersom DNA fortfarande skulle uppstå med tanke på de många fördelarna med att anpassa proteinkodande DNA-sekvenser som aminosyror (se ovan).

ett alternativ är också att automatiskt ta bort eventuella dåligt justera sekvenser som bestäms av de initiala parvis inriktningar som utförs av ClustalW. Denna funktion är till stor del avsedd att ta bort problematiska sekvenser från inriktningsledningar, där det är svårt att (manuellt) förbättra den globala anpassningen efteråt., För varje sekvens jämförs medelvärdet av dess parvisa justeringsvärden med medelvärdet mellan alla återstående sekvenser enligt ett enstjärtat tvåprov t-test korrigerat för flera jämförelser. Som sådan är förfarandet mest effektivt för att identifiera isolerade problematiska sekvenser, vilket kan härledas från införandet av en potentiell paralog eller helt enkelt en misidentifierad sekvens. Familjer med sådana sekvenser (t.ex. om datamängden innehåller många kopior av var och en av paralogerna från en genfamilj) är mindre benägna att detekteras.,

eftersom ClustalW ignorerar tvetydiga aminosyror och stoppar kodon (inte heller är närvarande i aminosyraövergångsmatriserna), transalign översätter dem initialt som luckor för att tillåta tillbaka-översättning. Detta förfarande är oproblematiskt om inte den tvetydiga återstoden eller stoppkodon ligger intill en lucka som följer av justeringsförfarandet, där den kan placeras antingen i början eller slutet av gapet. För tvetydiga rester som härrör från ofullständiga kodon bestämmer transAlign det mer optimala av de två placeringarna baserat på konkordansen hos de saknade nukleotiderna med gapet., Alla sådana fall bör dock fortfarande undersökas och vid behov korrigeras individuellt under den manuella inspektion som följer på ett automatiskt justeringsförfarande.

självklart är användningen av transAlign endast begränsad till kodande DNA-sekvenser och bör inte användas för icke-kodande DNA, oavsett om det gäller gener som 18S rDNA (=MTRNR2; ); flanking UTR, regulatoriska eller introniska regioner av gener; eller mikrosatellitsekvenser. Förfarandet påverkas också negativt av ramskift (t.ex. från sekvenseringsfel)., Därför utfärdar transAlign minimalt en varning för varje sekvens som innehåller mer än ett användardefinierat tröskelvärde för stoppkodon (exklusive terminalkodon) i optimal orientering. Detta tröskelvärde kan antingen vara ett absolut antal stoppkodon (standard) eller en procentandel stoppkodon i den återstående sekvensen efter det att den första stoppkodonen har uppstått., Även om denna procedur i allmänhet är robust är det mindre sannolikt att upptäcka ramskift som uppstår nära vardera änden av en given sekvens på grund av den minskade sannolikheten för en felaktig stoppkodon som uppstår i de få återstående bostäderna.

tre globala lösningar för alla ramförskjutna sekvenser implementeras i transAlign: 1) radering, 2) justering med hjälp av de översatta sekvenserna oavsett (med tillhörande fel), eller 3) efterföljande profiljustering som DNA till den inriktade uppsättningen icke-ramförskjutna sekvenser (standard)., Det senare alternativet är den långsammaste av de tre, men tillåter att alla sekvenser anpassas så robust som möjligt. Dessutom kommer även en partiell profiljustering alltid att vara snabbare än att anpassa alla sekvenser som DNA (Figur 1), oavsett den faktiska speedup som är inneboende för att anpassa de kortare aminosyrasekvenserna. Prestanda kommer dock att falla av snabbt när andelen ramförskjutna sekvenser i datauppsättningen ökar., Till exempel, om man antar en speedup av 9x för att anpassa aminosyror jämfört med DNA (vilket, som nämnts, är det förväntade värdet baserat endast på längdhänsyn), kommer den totala tidsbesparingen endast att vara ca 2x om ramförskjutna sekvenser utgör 25% av alla sekvenser (se Figur 1). Slutligen, för att underlätta den manuella inspektionen av datauppsättningen, kommer transAlign också att försöka sluta sig till förmodade platser för ramskiftande indeler baserat på en jämförelse av luckor mellan aminosyraanpassade och DNA-profiljusterade sekvenser.,

Figur 1

teoretisk hastighetsökning från att utföra en översatt inriktning. Figuren visar att det alltid finns en prestationsfördel i att anpassa en viss andel av de proteinkodande DNA-sekvenserna i en datauppsättning via deras aminosyraöversättningar med de återstående DNA-sekvenserna som därefter profileras till dem., Kurvan som visas är baserad på antagandet att den översatta inriktningen är 9x snabbare, i genomsnitt, än respektive DNA justering; andra värden producerar nästan identiska kurvor av olika skalor.

som nämnts ovan kommer transAlign att mata ut de justerade DNA-sekvenserna i alla eller alla fasta, nexus, (classic eller extended) PHYLIP eller se-Al-format. Som standard matas sekvenserna ut i alfabetisk ordning enligt deras namn., Det är emellertid också möjligt att mata ut dem för att matcha deras ordning i den ursprungliga inmatningsfilen eller som de matas ut från ClustalW-anpassningen. Det senare alternativet är särskilt användbart för att identifiera ”familjer” med liknande sekvenser eller de sekvenser som var profilanpassade för att underlätta manuell korrigering av den globala anpassningen.

transAlign är skrivet i Perl och är öppen källkod. Det kommer att köras på alla operativsystem med en perl tolk och är kommandoraden drivs. Det har dock också ett användarinteraktivt läge där användaren uppmanas att ställa in alla relevanta variabler., Det kräver att en fjärrcallable version av ClustalW är närvarande antingen i den globala sökvägen eller i en användarspecificerad. Återigen skulle dock små ändringar av koden tillåta användningen något lämpligt program för flera inriktningar.


Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *