transAlign többszörös összehangolásának megkönnyítésére: aminosavak használata a fehérjekódoló DNS szekvenciák
transAlign automatikusan elolvashatja a DNS szekvenciákat a négy formátum bármelyikében: fasta , nexus, classic vagy “kiterjesztett” PHYLIP, and Se-Al . Azt is írni a végső igazítás bármelyik azonos formátumban. (Átalakítás vagy további formátumokat lehet elérni más programok, mint a readSeq vagy sreformat, része a hmmer csomag .,) A DNS-szekvenciák néhány alapvető szűrését is végrehajtják, beleértve a hézagok (akár az összes rés, akár csak a szekvenciát szegélyező szekvenciák) eltávolítását, valamint a nem egyértelmű nukleotidok (azaz Ns) felhasználó által meghatározott százalékánál nagyobb számú szekvenciák törlését.
A DNS-szekvenciák kezdeti feldolgozása után a transAlign meghatározza az egyes szekvenciák optimális fordítását az NCBI által felsorolt genetikai kódok bármelyikének megfelelően . Az Se-Al formázott adatok esetében az is lehetséges, hogy az egyes szekvenciákhoz különböző genetikai kódokat határoznak meg., Amennyire lehetséges, a transzalign kétértelmű nukleotidokat (de nem explicit réseket) tartalmazó kodonokat fordít. Az optimális fordítást úgy tartják, hogy így a legkevesebb stop kodonok, kivéve a terminál kodon. Alapértelmezés szerint csak a bemeneti orientáció három olvasási keretét vizsgáljuk, de lehetőség van a kiegészített, fordított és fordított irányú orientációk vizsgálatára is., Az ugyanolyan optimális orientációk érdekében a transzalign előnyben részesíti az eredeti DNS-szekvenciát a legkevésbé zavaróat: sorrendben, 1) A bemenetként való orientáció, amelyet az adott orientációban lévő második és harmadik olvasási keretek követnek, majd a megfelelő olvasási keretek mindegyikében 2) komplementer, 3) fordított és 4) fordított-kiegészítő orientációk.
transAlign ezután átadja a lefordított szekvenciákat ClustalW-nak az igazításhoz (A BLOSUM, a GONNET vagy a Pam fehérje súlyozó mátrixok bármelyikének megfelelően), majd visszafordítja a kapott igazított maradékszekvenciákat igazított DNS-szekvenciákká., ClustalW azért választották, mert talán a legismertebb és legszélesebb körben használt többszörös igazítás program. Emellett az aminosavátmeneti mátrixok (BLOSUM, GONNET és PAM) közül a legnagyobb választékot kínálja, valamint a profiligazítások elvégzésének képességét (lásd alább). A transzalign kód enyhe módosítása azonban lehetővé tenné bármely olyan megfelelő többszörös igazítási program használatát, amely bemenetként elfogadja a fehérjeszekvencia-adatokat (például DIALIGN2, különösen a Clustal-szerű kimenettel)., Az alkalmazott igazítási programtól függetlenül várható, hogy mind a sebesség, mind a pontosság növekszik, összehasonlítva a szekvenciák DNS-hez igazításával, mivel a fehérje-kódoló DNS-szekvenciák aminosavakká történő igazításának számos előnye van (lásd fent).
lehetőség van arra is, hogy automatikusan törölje a rosszul igazodó szekvenciákat, amint azt a ClustalW által végrehajtott kezdeti páros igazítások határozzák meg. Ez a funkció nagyrészt a problémás szekvenciák eltávolítására szolgál az igazítási csővezetékekből, ahol később nehéz (manuálisan) javítani a globális igazítást., Minden egyes szekvencia esetében a páronkénti igazítási pontszámok átlagát összehasonlítjuk az összes többi szekvencia között az egyfarkú kétmintás t-teszt szerint, amelyet több összehasonlításra korrigáltunk. Mint ilyen, az eljárás a leghatékonyabb az izolált problémás szekvenciák azonosításában, amelyek egy potenciális paralog vagy egyszerűen egy rosszul azonosított szekvencia felvételéből származhatnak. Az ilyen szekvenciák családjai (például ha az adathalmaz számos példányt tartalmaz egy géncsalád minden paralógjáról) kevésbé valószínű, hogy észlelhetők.,
mivel a ClustalW figyelmen kívül hagyja a kétértelmű aminosavakat és leállítja a kodonokat (az aminosav-átmeneti mátrixokban nincs jelen), a transAlign kezdetben résként fordítja őket, hogy lehetővé tegyék a visszafordítást. Ez az eljárás problémamentes, kivéve, ha a kétértelmű szermaradék vagy a stop kodon szomszédos az összehangolási eljárás által levezetett réssel, ahol a rés elején vagy végén helyezhető el. A hiányos kodonokból származó kétértelmű maradványok esetében a transzalign meghatározza a két elhelyezés optimálisabbját a hiányzó nukleotid(ok) és a rés összehangolása alapján., Mindazonáltal az összes ilyen esetet még meg kell vizsgálni, és szükség esetén egyedi alapon helyesbíteni kell a kézi ellenőrzés során, amely minden automatizált igazítási eljárást követ.
nyilvánvaló, hogy a transzalign alkalmazása csak a DNS-szekvenciák kódolására korlátozódik, és nem alkalmazható nem kódoló DNS-re, akár olyan génekre, mint a 18S rDNS (= MTRNR2; ); UTR, szabályozó vagy intronikus gének régiói; vagy mikroszatellit szekvenciák. Az eljárást hátrányosan befolyásolják a kereteltolódások is (például a szekvenálási hibák miatt)., Ezért a transAlign minimálisan figyelmeztetést ad ki minden olyan szekvenciára, amely több, mint egy felhasználó által megadott küszöbértéket tartalmaz (a terminális kodon kivételével) az optimális tájolásban. Ez a küszöbérték lehet a stop kodonok abszolút száma (alapértelmezett) vagy a stop kodonok százaléka a fennmaradó sorrendben az első stop kodon találkozása után., Bár ez az eljárás általában robusztus, kevésbé valószínű, hogy észleljük a kereteltolódásokat, amelyek egy adott szekvencia mindkét vége közelében fordulnak elő, mivel a hibás stop kodon valószínűsége csökken a fennmaradó néhány lakóhelyben.
három globális megoldás bármilyen keretelt szekvenciák végre transAlign: 1) törlés, 2) igazítás segítségével lefordított szekvenciák tekintet nélkül (a kapcsolódó hibák), vagy 3) a későbbi profil igazítás DNS-t az igazított sor nem-frame-eltolt szekvenciák (alapértelmezett)., Ez utóbbi lehetőség a három közül a leglassabb, de lehetővé teszi, hogy az összes szekvenciát a lehető legteljesebben igazítsák. Sőt, még egy részleges profil igazítás mindig gyorsabb, mint összehangolása minden szekvenciák DNS (ábra 1), függetlenül attól, hogy a tényleges speedup rejlő összehangolása rövidebb aminosav szekvenciák. A teljesítmény azonban gyorsan csökken, mivel az adatkészletben a kereteltolódott szekvenciák aránya növekszik., Például feltételezve, hogy a sebesség a 9x a hozzáigazítja aminosavak képest DNS-t (amely, mint említettük, a várható érték alapján csak a hossza szempontok), a teljes idő megtakarítás csak 2x ha a keret-eltolódott szekvenciák alkotják 25% – a szekvenciák (lásd 1.Ábra). Végül, az adatkészlet kézi ellenőrzésének megkönnyítése érdekében a transAlign megkísérli a képkocka-eltolódási indelek feltételezett helyeit is meghatározni az aminosav-igazított és a DNS-profilhoz igazított szekvenciák közötti rések összehasonlítása alapján.,