transAlign: utilizarea de amino-acizi pentru a facilita alinierea multiplă de proteine-codare secvente de ADN
transAlign pot citi în mod automat secvențe de ADN în oricare din cele patru formate: fasta, nexus , clasic sau „extins” PHYLIP, și Se-Al . De asemenea, poate scrie alinierea finală în oricare dintre aceleași formate. (De conversie sau de suplimentare ce pot fi realizate prin alte programe, cum ar fi readSeq sau sreformat, o parte din HMMER pachet .,) Unele filtrare de bază a secvențelor ADN este, de asemenea, puse în aplicare, inclusiv stripping de lacune (fie toate golurile sau numai cele care flancează o secvență) și ștergerea secvențe cu mai mult de un procent definit de utilizator de nucleotide ambigue (de exemplu, Ns).
după procesarea inițială a secvențelor ADN, transAlign va determina traducerea optimă pentru fiecare secvență în conformitate cu oricare dintre codurile genetice enumerate de NCBI . De asemenea, este posibil ca datele formatate Se-Al să aibă coduri genetice diferite specificate pentru fiecare secvență., Pe cât posibil, transAlign traduce codonii care conțin nucleotide ambigue (dar nu lacune explicite). Traducerea optimă este considerată a fi cea care produce cele mai puține codoni de oprire, cu excepția codonului terminal. În mod implicit, sunt examinate doar cele trei cadre de citire pentru orientarea intrării; cu toate acestea, este posibil să se examineze și orientările completate, inversate și inversate., Pentru la fel de optim orientări, transAlign favorizează o perturbatoare original secvență de ADN-ul cel mai puțin: în ordine, 1) orientarea ca date de intrare, urmată de a doua și a treia lectură cadre în orientarea, și apoi respective lectură cadre din fiecare din cele 2) complementare, 3) inversă, și 4) reverse-orientări complementare.
transAlign apoi trece tradus secvențe pentru a ClustalW pentru aliniere (în conformitate cu oricare dintre BLOSUM, GONNET sau PAM proteine matrici de ponderare) și înapoi-traduce rezultat aliniat de reziduuri secvențe aliniate secvente de ADN., ClustalW a fost ales deoarece este probabil cel mai cunoscut și cel mai utilizat program de aliniere multiplă. De asemenea, oferă cea mai mare gamă de matrice de tranziție de aminoacizi (BLOSUM, GONNET și PAM) și capacitatea de a face alinieri de profil (Vezi mai jos). Cu toate acestea, mici modificari la transAlign cod ar permite să utilizați orice multiplu adecvat-alinierea program care acceptă proteine secvența de date de intrare (de exemplu, DIALIGN2 cu Clustal-ca ieșire în special)., Indiferent de programul de aliniere utilizat, este de așteptat să crească atât viteza, cât și precizia în comparație cu alinierea secvențelor, deoarece ADN-ul ar avea loc în continuare, având în vedere numeroasele avantaje pentru alinierea secvențelor ADN care codifică proteinele ca aminoacizi (vezi mai sus).
o opțiune este, de asemenea, prevăzută pentru a șterge automat orice secvențe de aliniere slab determinate de aliniamentele inițiale perechi efectuate de ClustalW. Această caracteristică este destinată în mare măsură eliminării secvențelor problematice din conductele de aliniere, unde este dificil să se îmbunătățească (manual) alinierea globală ulterior., Pentru fiecare secvență, media scorurilor sale de aliniere pereche este comparată cu cea dintre toate secvențele rămase, conform unui test T cu două eșantioane cu o singură coadă, corectat pentru comparații multiple. Ca atare, procedura este cea mai eficientă în identificarea secvențelor problematice izolate, care ar putea rezulta din includerea unui potențial paralog sau pur și simplu a unei secvențe identificate greșit. Familiile unor astfel de secvențe (de exemplu, dacă setul de date conține numeroase copii ale fiecăruia dintre paralogii dintr-o familie de gene) sunt mai puțin susceptibile de a fi detectate.,
Pentru ClustalW ignoră ambiguu aminoacizi și codonii stop (nu sunt prezente în amino-acid matricele de tranziție), transAlign le traduce inițial ca lacune pentru a permite back-traducere. Această procedură este neproblematică, cu excepția cazului în care reziduul ambiguu sau codonul stop sunt adiacente unui gol dedus de procedura de aliniere, unde ar putea fi plasat fie la începutul, fie la sfârșitul decalajului. Pentru reziduurile ambigue provenite din codonii incompleți, transAlign determină cea mai optimă dintre cele două plasări pe baza concordanței nucleotidelor lipsă cu decalajul., Cu toate acestea, toate aceste cazuri ar trebui totuși examinate și, dacă este necesar, corectate individual în timpul inspecției manuale care urmează oricărei proceduri de aliniere automată.
în mod Evident, utilizarea de transAlign este limitată la ADN-ul de codificare secvențe și nu ar trebui să fie utilizate pentru non-ADN-ul de codificare, fie pentru gene, cum ar fi adnr 18S (= MTRNR2; ); flancare UTR, de reglementare, sau intronic regiuni de gene; sau microsateliți secvențe. Procedura este, de asemenea, afectată negativ de schimbările de cadre (de exemplu, din erorile de secvențiere)., Prin urmare, transAlign va emite minim un avertisment pentru fiecare secvență care conține mai mult de un prag specificat de utilizator de codoni de oprire (excluzând codonul terminal) în orientarea optimă. Acest prag poate fi fie un număr absolut de codoni stop (implicit), fie un procent de codoni stop în secvența rămasă după ce primul codon stop este întâlnit., Deși această procedură este în general robustă, este mai puțin probabil să detecteze schimbări de cadru care apar aproape de fiecare capăt al unei secvențe date, din cauza probabilității reduse de apariție a unui codon de oprire eronat în puținele reziduri rămase.
Trei soluții globale pentru orice cadru s-a schimbat secvențe sunt puse în aplicare în transAlign: 1) eliminarea, 2) alinierea folosind tradus secvențe indiferent (cu erorile asociate), sau 3) după profilul de aliniere ca ADN-ul aliniat set de non-frame-a mutat secvențe (default)., Ultima opțiune este cea mai lentă dintre cele trei, dar permite ca toate secvențele să fie aliniate cât mai puternic posibil. Mai mult, chiar și o aliniere parțială a profilului va fi întotdeauna mai rapidă decât alinierea tuturor secvențelor ca ADN (Figura 1), indiferent de accelerarea reală inerentă alinierii secvențelor de aminoacizi mai scurte. Cu toate acestea, performanța va scădea rapid pe măsură ce proporția secvențelor deplasate în cadru din setul de date crește., De exemplu, presupunând o accelerare de 9x pentru alinierea aminoacizilor în comparație cu ADN-ul (care, după cum sa menționat, este valoarea așteptată numai pe baza considerațiilor de lungime), economisirea totală a timpului va fi de aproximativ 2x dacă secvențele deplasate în cadru cuprind 25% din toate secvențele (a se vedea Figura 1). În cele din urmă, pentru a facilita inspecția manuală a setului de date, transAlign va încerca, de asemenea, pentru a deduce posibilele locații pentru frame-schimbarea indels bazează pe o comparație între golurile dintre amino-acid aliniate și profilul ADN-aliniat secvențe.,
după Cum sa menționat mai sus, transAlign va ieșire aliniat secvențe de ADN în orice sau toate dintre fasta, nexus, (clasic sau extinsă) PHYLIP, sau Se-Al-formate. În mod implicit, secvențele sunt afișate în ordine alfabetică în funcție de numele lor., Cu toate acestea, este de asemenea posibil să le scoateți pentru a se potrivi cu ordinea lor în fișierul de intrare original sau așa cum au fost ieșite din alinierea ClustalW. Această din urmă opțiune este deosebit de utilă pentru identificarea „familiilor” de secvențe similare sau a acelor secvențe care au fost aliniate la profil pentru a facilita orice corecție manuală a alinierii globale.transAlign este scris în Perl și este open source. Acesta va rula pe orice sistem de operare cu un interpretor Perl și este condus de linie de comandă. Cu toate acestea, Acesta dispune, de asemenea, un mod interactiv de utilizator în cazul în care utilizatorul este solicitat pentru a seta toate variabilele relevante., Se impune ca un la distanță-nevărsat versiune de ClustalW este prezent fie în global cale sau un utilizator specificat. Din nou, însă, modificări ușoare ale codului ar permite utilizarea oricărui program adecvat de aliniere multiplă.