transAlign: Verwendung von Aminosäuren zur Erleichterung der Mehrfachausrichtung von proteinkodierenden DNA-Sequenzen

0 Comments

transAlign kann DNA-Sequenzen automatisch in einem von vier Formaten lesen: fasta , nexus, classic oder „extended“ PHYLIP und Se-Al . Es kann auch die endgültige Ausrichtung in einem dieser Formate schreiben. (Die Konvertierung in oder von zusätzlichen Formaten kann durch andere Programme wie readSeq oder sreformat, Teil des HMMER-Pakets, durchgeführt werden .,) Einige grundlegende Filterung der DNA-Sequenzen ist ebenfalls implementiert, einschließlich des Strippens von Lücken (entweder alle Lücken oder nur solche flankierend eine Sequenz) und Löschen von Sequenzen mit mehr als einem benutzerdefinierten Prozentsatz von mehrdeutigen Nukleotiden (dh Ns).

Nach der ersten Verarbeitung der DNA-Sequenzen bestimmt transAlign die optimale Translation für jede Sequenz gemäß einem der vom NCBI aufgeführten genetischen Codes . Es ist auch möglich, dass Se-Al-formatierte Daten unterschiedliche genetische Codes für jede Sequenz spezifiziert haben., transAlign übersetzt so weit wie möglich Codons, die mehrdeutige Nukleotide enthalten (aber keine expliziten Lücken). Die optimale Übersetzung wird als diejenige angesehen, die die wenigsten Stop-Codons ohne das Terminal-Codon ergibt. Standardmäßig werden nur die drei Leserahmen für die Eingabeausrichtung untersucht; es ist jedoch auch möglich, die ergänzten, umgekehrten und umgekehrt ergänzten Ausrichtungen zu untersuchen., Für ebenso optimale Orientierungen bevorzugt transAlign diejenige, die die ursprüngliche DNA-Sequenz am wenigsten stört: in der Reihenfolge 1) die Orientierung als Eingabe, gefolgt von dem zweiten und dritten Leserahmen in dieser Ausrichtung und dann den jeweiligen Leserahmen in jedem der 2) komplementären, 3) umgekehrten und 4) umgekehrten komplementären Orientierungen.

transAlign übergibt dann die übersetzten Sequenzen zur Ausrichtung an ClustalW (gemäß einer der BLOSUM -, GONNET-oder PAM-Proteingewichtungsmatrizen) und übersetzt die resultierenden ausgerichteten Restsequenzen zurück in ausgerichtete DNA-Sequenzen., ClustalW wurde ausgewählt, weil es vielleicht das bekannteste und am weitesten verbreitete Programm zur Mehrfachausrichtung ist. Es bietet auch die größte Auswahl an Aminosäure-Übergangsmatrizen (BLOSUM, GONNET und PAM) und die Möglichkeit, Profilausrichtungen durchzuführen (siehe unten). Geringfügige Änderungen am transAlign-Code würden jedoch die Verwendung eines geeigneten Programms zur Mehrfachausrichtung ermöglichen, das Proteinsequenzdaten als Eingabe akzeptiert (z. B. DIALIGN2 insbesondere mit seiner Clustal-ähnlichen Ausgabe)., Unabhängig von dem verwendeten Ausrichtungsprogramm wird erwartet, dass angesichts der vielen Vorteile für die Ausrichtung proteinkodierender DNA-Sequenzen als Aminosäuren immer noch eine Erhöhung der Geschwindigkeit und Genauigkeit im Vergleich zur Ausrichtung der Sequenzen als DNA auftreten würde (siehe oben).

Es wird auch eine Option bereitgestellt, um schlecht ausrichtende Sequenzen automatisch zu löschen, wie sie durch die anfänglichen paarweisen Ausrichtungen von ClustalW bestimmt werden. Diese Funktion dient weitgehend dazu, problematische Sequenzen aus Ausrichtungspipelines zu entfernen, bei denen es schwierig ist, die globale Ausrichtung anschließend (manuell) zu verbessern., Für jede Sequenz wird der Mittelwert ihrer paarweisen Ausrichtungswerte mit dem zwischen allen verbleibenden Sequenzen verglichen, wobei ein Ein-Tailed Two-Sample-T-Test für mehrere Vergleiche korrigiert wird. Daher ist das Verfahren am effektivsten bei der Identifizierung isolierter problematischer Sequenzen, die sich aus der Einbeziehung eines potenziellen Paralogs oder einfach einer falsch identifizierten Sequenz ergeben können. Familien solcher Sequenzen (z. B. wenn der Datensatz zahlreiche Kopien von jedem der Paraloga aus einer Genfamilie enthält) werden seltener nachgewiesen.,

Da ClustalW mehrdeutige Aminosäuren ignoriert und Codons stoppt (die in den Aminosäure-Übergangsmatrizen nicht vorhanden sind), transAlign übersetzt sie zunächst als Lücken, um eine Rückübersetzung zu ermöglichen. Dieses Verfahren ist unproblematisch, es sei denn, das mehrdeutige Rest-oder Stop-Codon grenzt an einen durch das Ausrichtungsverfahren abgeleiteten Spalt an, wo es entweder am Anfang oder am Ende des Spalts platziert werden könnte. Für mehrdeutige Rückstände, die aus unvollständigen Codons entstehen, bestimmt transAlign die optimalere der beiden Platzierungen basierend auf der Konkordanz der fehlenden Nukleotide mit der Lücke., Alle diese Fälle sollten jedoch während der manuellen Inspektion, die einem automatisierten Ausrichtungsverfahren folgt, noch einzeln geprüft und gegebenenfalls korrigiert werden.

Offensichtlich ist die Verwendung von transAlign nur auf kodierende DNA-Sequenzen beschränkt und sollte nicht für nicht kodierende DNA verwendet werden, sei es für Gene wie 18S rDNA (= MTRNR2; ); flankierende UTR -, regulatorische oder intronische Regionen von Genen; oder Mikrosatellitensequenzen. Das Verfahren wird auch durch Rahmenverschiebungen (z. B. durch Sequenzierungsfehler) nachteilig beeinflusst., Daher gibt transAlign für jede Sequenz minimal eine Warnung aus, die mehr als einen benutzerdefinierten Schwellenwert für Stop-Codons (mit Ausnahme des Terminalcodons) in der optimalen Ausrichtung enthält. Dieser Schwellenwert kann entweder eine absolute Anzahl von Stop-Codons (Standard) oder ein Prozentsatz von Stop-Codons in der verbleibenden Sequenz nach dem ersten Stop-Codon sein., Obwohl dieses Verfahren im Allgemeinen robust ist, ist es weniger wahrscheinlich, Frame-Verschiebungen zu erkennen, die nahe jedem Ende einer gegebenen Sequenz auftreten, da die Wahrscheinlichkeit eines fehlerhaften Stop-Codons, das in den wenigen verbleibenden residiert, verringert ist.

In transAlign sind drei globale Lösungen für beliebige frame-verschobene Sequenzen implementiert: 1) Löschen, 2) Ausrichtung unter Verwendung der übersetzten Sequenzen unabhängig (mit den zugehörigen Fehlern) oder 3) nachfolgende Profilausrichtung gemäß dem ausgerichteten Satz von nicht Frame-verschobenen Sequenzen (Standard)., Die letztere Option ist die langsamste der drei, ermöglicht jedoch die Ausrichtung aller Sequenzen so robust wie möglich. Darüber hinaus ist selbst eine partielle Profilausrichtung immer schneller als das Ausrichten aller Sequenzen als DNA (Abbildung 1), unabhängig von der tatsächlichen Beschleunigung, die dem Ausrichten der kürzeren Aminosäuresequenzen innewohnt. Die Leistung sinkt jedoch schnell, wenn der Anteil der Frame-verschobenen Sequenzen im Datensatz zunimmt., Unter der Annahme einer Beschleunigung von 9x zum Ausrichten von Aminosäuren im Vergleich zu DNA (was, wie erwähnt, der erwartete Wert ist, der nur auf Längenüberlegungen basiert) beträgt die Gesamtzeitersparnis beispielsweise nur etwa das Doppelte, wenn Frame-verschobene Sequenzen 25% aller Sequenzen ausmachen (siehe Abbildung 1). Schließlich wird transAlign, um die manuelle Inspektion des Datensatzes zu erleichtern, auch versuchen, mutmaßliche Stellen für rahmenverschiebende Indels basierend auf einem Vergleich von Lücken zwischen den Aminosäure-ausgerichteten und DNA-Profil-ausgerichteten Sequenzen abzuleiten.,

Abbildung 1

Theoretischer Geschwindigkeitsgewinn durch eine übersetzte Ausrichtung. Die Abbildung zeigt, dass es immer einen Leistungsvorteil gibt, einen bestimmten Anteil der proteinkodierenden DNA-Sequenzen in einem Datensatz über ihre Aminosäurenübersetzungen mit den verbleibenden DNA-Sequenzen auszurichten, die anschließend auf sie profilorientiert werden., Die gezeigte Kurve basiert auf der Annahme, dass die übersetzte Ausrichtung im Durchschnitt 9x schneller ist als die jeweilige DNA-Ausrichtung; andere Werte erzeugen nahezu identische Kurven unterschiedlicher Skalen.

Wie oben erwähnt, gibt transAlign die ausgerichteten DNA-Sequenzen in einem oder allen fasta -, nexus -, (klassischen oder erweiterten) PHYLIP-oder Se-Al-Formaten aus. Standardmäßig werden die Sequenzen in alphabetischer Reihenfolge nach ihrem Namen ausgegeben., Es ist jedoch auch möglich, sie so auszugeben, dass sie ihrer Reihenfolge in der ursprünglichen Eingabedatei entsprechen oder wie sie von der ClustalW-Ausrichtung ausgegeben wurden. Die letztere Option ist besonders nützlich, um „Familien“ ähnlicher Sequenzen oder solcher Sequenzen zu identifizieren, die profilausgeglichen wurden, um eine manuelle Korrektur der globalen Ausrichtung zu erleichtern.

transAlign ist in Perl geschrieben und Open Source. Es wird auf jedem Betriebssystem mit einem Perl-Interpreter ausgeführt und ist befehlszeilengesteuert. Es verfügt jedoch auch über einen benutzerinteraktiven Modus, in dem der Benutzer aufgefordert wird, alle relevanten Variablen festzulegen., Es erfordert, dass eine remote aufrufbare Version von ClustalW entweder im globalen Pfad oder in einem benutzerdefinierten Pfad vorhanden ist. Auch hier würden jedoch geringfügige Änderungen am Code die Verwendung eines geeigneten Mehrfachausrichtungsprogramms ermöglichen.


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.