transAlign: použití aminokyselin k usnadnění vícenásobné zarovnání protein-kódující sekvence DNA
transAlign může automaticky číst sekvence DNA v každém ze čtyř formátů: fasta, nexus , klasické nebo „extended“ PHYLIP, a Se-Al . To může také psát konečné zarovnání v některém z těchto stejných formátů. (Převod do nebo z dalších formátů lze provést prostřednictvím jiných programů, jako je readSeq nebo sreformat, část balíčku HMMER .,) Některé základní filtrování sekvence DNA je také realizován, včetně odstraňování mezery (buď všechny mezery nebo jen ty doprovodné sekvence) a odstranění sekvencí s více než uživatelem definované procento nejednoznačné nukleotidy (tj., Ns).
po počátečním zpracování sekvencí DNA určí transAlign optimální překlad pro každou sekvenci podle kteréhokoli z genetických kódů uvedených NCBI . Je také možné, aby se-al formátovaná data měla různé genetické kódy určené pro každou sekvenci., Pokud je to možné, transAlign překládá kodony obsahující nejednoznačné nukleotidy (ale ne explicitní mezery). Optimální překlad je považován za to, že poskytuje nejmenší Stop kodony s výjimkou terminálního kodonu. Ve výchozím nastavení jsou zkoumány pouze tři čtecí rámce pro vstupní orientaci; je však možné prozkoumat také doplněné, obrácené a obráceně doplněné orientace., Pro stejnou optimální orientace, transAlign zvýhodňuje jeden rušivé původní sekvence DNA nejméně: v pořádku, 1) orientace jako vstup, následuje druhé a třetí čtení snímků v orientaci, a pak jejich čtení snímků v každém ze 2) komplementární, 3) reverzní, a 4) reverzní komplementární směry.
transAlign pak přechází přeložené sekvence ClustalW pro zarovnání (podle některého z BLOSUM, GONNET nebo PAM bílkovin váhové matice) a zpět-překládá výsledný souladu zbytek sekvence zarovnané sekvence DNA., ClustalW byl vybrán, protože je to možná nejznámější a nejpoužívanější program pro více zarovnání. To také nabízí největší výběr aminokyselin přechodu matric (BLOSUM, GONNET, a PAM) a schopnost udělat profil zarovnání (viz níže). Nicméně, mírné úpravy transAlign kód umožní použít jakýkoli vhodný multiple-alignment program, který přijímá proteinové sekvence dat jako vstup (např. DIALIGN2 s jeho Clustal-jako výstup, zejména)., Bez ohledu na zarovnání program používá, očekává se, že zvýšení rychlosti a přesnosti ve srovnání s zarovnání sekvencí podle DNA by ještě nastat vzhledem k tomu, mnoho výhod pro zarovnání protein-kódujících sekvencí DNA, jako jsou aminokyseliny (viz výše).
možnost je také k dispozici, aby se automaticky odstranit všechny špatně zarovnání sekvencí, jak určí počáteční párového zarovnání provádí ClustalW. Tato funkce je určena do značné míry k odstranění problematických sekvencí z potrubí zarovnání, kde je obtížné (ručně) zlepšit globální zarovnání poté., Pro každou sekvenci, tím jeho párového zarovnání skóre je ve srovnání mezi všechny zbývající sekvence podle jednostranný two-sample t-test korigováno pro vícenásobné porovnávání. Jako takový, postup je nejúčinnější při identifikaci izolovaných problematické sekvence, které by mohly vyplývat z zahrnutí potenciálních paralog nebo prostě chybně pořadí. Rodiny takových sekvencí (např. pokud datová sada obsahuje četné kopie každého z paralogů z genové rodiny) jsou méně pravděpodobné, že budou detekovány.,
Protože ClustalW ignoruje nejednoznačné aminokyselin a stop kodony (ani být přítomen v amino-kyseliny přechodu matric), transAlign překládá je zpočátku jako mezery umožňující zpětný překlad. Tento postup je bezproblémové, pokud nejednoznačné zbytky nebo stop kodonu je přilehlý k rozdílu odvodit zarovnání postup, kde může být umístěn buď na začátku nebo na konci mezeru. U nejednoznačných reziduí vznikajících z neúplných kodonů určuje transAlign optimální ze dvou umístění na základě konkordance chybějícího nukleotidu(nukleotidů) s mezerou., Všechny tyto případy by však měly být ještě přezkoumány a v případě potřeby opraveny individuálně během ruční kontroly, která následuje po jakémkoli automatizovaném postupu zarovnání.
je Zřejmé, že použití transAlign je omezeno kódování sekvence DNA a neměly by být použity pro nekódující DNA, ať už pro geny jako 18S rDNA (= MTRNR2; ); doprovodná UTR, regulační, nebo intronic oblastech genů; nebo sekvence mikrosatelitů. Postup je také nepříznivě ovlivněn posuny rámců(např. z chyb sekvenování)., TransAlign proto minimálně vydá varování pro každou sekvenci, která obsahuje více než uživatelsky specifikovaný práh stop kodonů (s výjimkou terminálového kodonu) v optimální orientaci. Tato prahová hodnota může být buď absolutní počet stop kodonů(výchozí) nebo procento stop kodonů ve zbývající sekvenci po prvním stop kodonu., I když tento postup je obecně robustní, je méně pravděpodobné, že k detekci rám posuny, které se vyskytují v blízkosti jednoho konce dané sekvence, protože snižuje pravděpodobnost chybného stop kodonu, které vznikají v několika zbývajících bydliště.
Tři globální řešení pro každý snímek posunul sekvence jsou realizovány v transAlign: 1) odstranění, 2) zarovnání pomocí přeloženého sekvencí bez ohledu na to (s tím spojené chyby), nebo 3) následné profil zarovnání jako DNA souladu sada non-frame-posunul sekvence (výchozí)., Druhá možnost je nejpomalejší ze tří, ale umožňuje, aby všechny sekvence byly zarovnány co nejkrutěji. Navíc, i částečný profil zarovnání bude vždy rychlejší, než zarovnání všech sekvencí jako DNA (Obrázek 1), bez ohledu na skutečné zrychlení vlastní zarovnání kratší aminokyselin sekvence. Výkon však rychle poklesne, protože se zvyšuje podíl sekvencí posunutých v datovém souboru., Například, za předpokladu, že zrychlení 9x pro zarovnání aminokyselin ve srovnání s DNA (které, jak již bylo uvedeno, je hodnota očekává, že pouze na základě délky úvahy), celková úspora času bude jen asi 2x, pokud se snímek posunul sekvence tvoří 25% všech sekvencí (viz Obrázek 1). Konečně, k usnadnění ruční kontroly dataset, transAlign se také pokusí odvodit předpokládané umístění rámu-řazení indels založena na srovnání mezer mezi aminokyselin, které jsou sladěny a DNA profil-zarovnané sekvence.,
Jak bylo uvedeno výše, transAlign výstup zarovnané sekvence DNA, v jakékoli nebo všechny z fasta, nexus, (klasický nebo rozšířený), PHYLIP, nebo Se-Al formátů. Ve výchozím nastavení jsou sekvence zobrazeny v abecedním pořadí podle jejich názvu., Je však také možné je vyřadit tak, aby odpovídaly jejich pořadí v původním vstupním souboru nebo jak byly výstupem z zarovnání ClustalW. Druhá možnost je zvláště užitečná při identifikaci „rodin“ podobných sekvencí nebo sekvencí, které byly profilově zarovnány, aby se usnadnila manuální korekce globálního zarovnání.
transAlign je napsán v Perlu a je open source. Poběží na jakémkoli operačním systému s interpretem Perl a je řízen příkazovým řádkem. Má však také uživatelsko-interaktivní režim, ve kterém je uživatel vyzván k nastavení všech příslušných proměnných., Vyžaduje, aby byla vzdáleně volatelná verze ClustalW přítomna buď v globální cestě, nebo v uživatelské specifikované verzi. Opět by však mírné úpravy kódu umožnily použití jakéhokoli vhodného programu pro více zarovnání.