transAlign: utilizzo di aminoacidi per facilitare l’allineamento multiplo di proteina-codifica di sequenze di DNA
transAlign può leggere automaticamente sequenze di DNA in quattro formati: fasta, nexus , classico o “estesa” PHYLIP, e Se-Al . Può anche scrivere l’allineamento finale in uno qualsiasi di questi stessi formati. (La conversione da o verso formati aggiuntivi può essere effettuata tramite altri programmi come readSeq o sreformat, parte del pacchetto HMMER .,) È anche implementato un filtraggio di base delle sequenze di DNA, incluso lo stripping di lacune (tutte le lacune o solo quelle che fiancheggiano una sequenza) e l’eliminazione di sequenze con più di una percentuale definita dall’utente di nucleotidi ambigui (cioè, Ns).
Dopo l’elaborazione iniziale delle sequenze di DNA, transAlign determinerà la traduzione ottimale per ogni sequenza secondo uno qualsiasi dei codici genetici elencati dal NCBI . È anche possibile che i dati formattati Se-Al abbiano codici genetici diversi specificati per ogni sequenza., Per quanto possibile, transAlign traduce codoni contenenti nucleotidi ambigui (ma non lacune esplicite). La traduzione ottimale è ritenuta quella che produce il minor numero di codoni di stop escludendo il codone terminale. Per impostazione predefinita, vengono esaminati solo i tre fotogrammi di lettura per l’orientamento di input; tuttavia, è possibile esaminare anche gli orientamenti completati, invertiti e invertiti., Per orientamenti ugualmente ottimali, transAlign favorisce quello perturbante la sequenza del DNA originale il meno: nell’ordine, 1) l’orientamento come input, seguito dal secondo e dal terzo frame di lettura in quell’orientamento, e quindi dai rispettivi frame di lettura in ciascuno degli orientamenti 2) complementari, 3) inversi e 4) reverse-complementari.
transAlign passa quindi le sequenze tradotte a ClustalW per l’allineamento (secondo una qualsiasi delle matrici di ponderazione delle proteine BLOSUM, GONNET o PAM) e traduce le sequenze di residui allineati risultanti in sequenze di DNA allineate., ClustalW è stato scelto perché è forse il programma di allineamento multiplo più noto e più utilizzato. Offre anche la più ampia scelta di matrici di transizione aminoacidica (BLOSUM, GONNET e PAM) e la possibilità di eseguire allineamenti di profilo (vedi sotto). Tuttavia, lievi modifiche al codice transAlign consentirebbero l’uso di qualsiasi programma di allineamento multiplo adatto che accetti i dati della sequenza proteica come input (ad esempio, DIALIGN2 con il suo output simile a Clustal in particolare)., Indipendentemente dal programma di allineamento utilizzato, si prevede che aumenti sia in velocità che in precisione rispetto all’allineamento delle sequenze in quanto il DNA si verificherebbe ancora dati i numerosi vantaggi per l’allineamento delle sequenze di DNA codificanti proteine come amminoacidi (vedi sopra).
Viene anche fornita un’opzione per eliminare automaticamente eventuali sequenze scarsamente allineate come determinato dagli allineamenti iniziali a coppie eseguiti da ClustalW. Questa funzione è destinata in gran parte a rimuovere sequenze problematiche dalle pipeline di allineamento, dove è difficile (manualmente) migliorare l’allineamento globale in seguito., Per ogni sequenza, la media dei suoi punteggi di allineamento a coppie viene confrontata con quella tra tutte le sequenze rimanenti secondo un test t a due campioni a una coda corretto per confronti multipli. In quanto tale, la procedura è più efficace nell’identificare sequenze problematiche isolate, che potrebbero derivare dall’inclusione di un potenziale paralog o semplicemente di una sequenza erroneamente identificata. Le famiglie di tali sequenze (ad esempio, se il set di dati contiene numerose copie di ciascuno dei paralog di una famiglia genica) hanno meno probabilità di essere rilevate.,
Poiché ClustalW ignora gli amminoacidi ambigui e ferma i codoni (non essendo presenti nelle matrici di transizione aminoacidica), transAlign li traduce inizialmente come lacune per consentire la retro-traduzione. Questa procedura non è problematica a meno che il residuo ambiguo o il codone di arresto non sia adiacente a uno spazio dedotto dalla procedura di allineamento, dove potrebbe essere posizionato all’inizio o alla fine dello spazio. Per residui ambigui derivanti da codoni incompleti, transAlign determina il più ottimale dei due posizionamenti in base alla concordanza del nucleotide mancante(s) con il gap., Tuttavia, tutti questi casi dovrebbero ancora essere esaminati e, se necessario, corretti su base individuale durante l’ispezione manuale che segue qualsiasi procedura di allineamento automatizzato.
Ovviamente, l’uso di transAlign è limitato alle sole sequenze di DNA codificanti e non dovrebbe essere usato per DNA non codificante, sia per geni come 18S rDNA (= MTRNR2; ); che fiancheggiano UTR, regioni regolatorie o introniche di geni; o sequenze microsatellitiche. La procedura è anche influenzata negativamente da spostamenti di frame (ad esempio, da errori di sequenziamento)., Pertanto, transAlign emetterà un avviso minimo per ogni sequenza che contiene più di una soglia specificata dall’utente di codoni di stop (escluso il codone terminale) nell’orientamento ottimale. Questa soglia può essere un numero assoluto di codoni di stop (default) o una percentuale di codoni di stop nella sequenza rimanente dopo che viene rilevato il primo codone di stop., Sebbene questa procedura sia generalmente robusta, è meno probabile rilevare spostamenti di frame che si verificano vicino a entrambe le estremità di una data sequenza a causa della ridotta probabilità di un codone di arresto errato che si verifica nei pochi residui rimanenti.
In transAlign sono implementate tre soluzioni globali per qualsiasi sequenza di frame-shifted: 1) delezione, 2) allineamento utilizzando le sequenze tradotte indipendentemente (con gli errori associati), o 3) successivo allineamento del profilo come DNA all’insieme allineato di sequenze non-frame-shifted (default)., Quest’ultima opzione è la più lenta delle tre, ma consente a tutte le sequenze di essere allineate nel modo più robusto possibile. Inoltre, anche un allineamento parziale del profilo sarà sempre più veloce rispetto all’allineamento di tutte le sequenze come DNA (Figura 1), indipendentemente dall’effettivo aumento di velocità inerente all’allineamento delle sequenze amminoacidiche più brevi. Tuttavia, le prestazioni diminuiranno rapidamente man mano che aumenta la percentuale di sequenze spostate nel set di dati., Ad esempio, supponendo un aumento di velocità di 9x per allineare gli amminoacidi rispetto al DNA (che, come detto, è il valore atteso basato solo su considerazioni di lunghezza), il risparmio di tempo complessivo sarà solo di circa 2x se le sequenze di frame-shifted comprendono il 25% di tutte le sequenze (vedi Figura 1). Infine, per facilitare l’ispezione manuale del set di dati, transAlign tenterà anche di dedurre posizioni putative per indel frame-shifting sulla base di un confronto di spazi tra le sequenze allineate agli amminoacidi e quelle allineate al profilo del DNA.,