transAlign: using amino acids to facilitate the multiple alignment of protein-coding DNA sequences

0 Comments

transAlign can automatically read DNA sequences in any of four formats: FASTA, nexus , classic or „extended” PHYLIP, and Se-Al. Może również zapisać końcowe wyrównanie w dowolnym z tych samych formatów. (Konwersja do lub z dodatkowych formatów może być przeprowadzona za pomocą innych programów, takich jak readSeq lub sreformat, część pakietu HMMER .,) Pewne podstawowe filtrowanie sekwencji DNA jest również zaimplementowane, w tym usuwanie luk (albo wszystkie luki lub tylko te, które otaczają sekwencję) i usuwanie sekwencji z więcej niż zdefiniowanym przez użytkownika odsetkiem niejednoznacznych nukleotydów (NS).

po wstępnym przetworzeniu sekwencji DNA, transAlign określi optymalną translację dla każdej sekwencji zgodnie z którymkolwiek z kodów genetycznych wymienionych przez NCBI . Możliwe jest również, aby dane sformatowane przez Se-Al miały różne kody genetyczne określone dla każdej sekwencji., W miarę możliwości transAlign tłumaczy kodony zawierające niejednoznaczne nukleotydy (ale nie wyraźne luki). Optymalne tłumaczenie jest uważane za takie, które daje najmniej kodonów stop z wyłączeniem kodonów końcowych. Domyślnie badane są tylko trzy klatki odczytu dla orientacji wejścia; możliwe jest jednak zbadanie również orientacji uzupełnionej, odwróconej i uzupełnionej., Dla równie optymalnych orientacji, transAlign faworyzuje ten, który najmniej zaburza oryginalną sekwencję DNA: w kolejności, 1) orientacja jako wejście, następnie druga i trzecia ramka odczytu w tej orientacji, a następnie odpowiednie ramki odczytu w każdej z 2) komplementarnych, 3) odwrotnych i 4) odwrotnych-komplementarnych orientacji.

transAlign przekazuje następnie przetłumaczone sekwencje do ClustalW w celu wyrównania (zgodnie z dowolną matrycą ważącą białka BLOSUM, GONNET lub Pam) i z powrotem przekłada wynikowe wyrównane sekwencje pozostałości na wyrównane sekwencje DNA., ClustalW został wybrany, ponieważ jest prawdopodobnie najbardziej znanym i najczęściej używanym programem wielokrotnego wyrównywania. Oferuje również największy wybór matryc przejścia aminokwasów (BLOSUM, GONNET i PAM) oraz zdolność do wyrównywania profilu(patrz poniżej). Jednak niewielkie modyfikacje kodu transAlign pozwoliłyby na użycie dowolnego odpowiedniego programu wielokrotnego wyrównywania, który akceptuje dane sekwencji białek jako dane wejściowe (np. DIALIGN2 z jego clustal-like output w szczególności)., Niezależnie od zastosowanego programu wyrównywania, oczekuje się, że wzrost zarówno szybkości, jak i dokładności w porównaniu do wyrównywania sekwencji jako DNA nadal występuje, biorąc pod uwagę wiele zalet wyrównywania sekwencji DNA kodujących białka jako aminokwasy (patrz powyżej).

dostępna jest również opcja automatycznego usuwania wszelkich źle wyrównujących sekwencji, zgodnie z początkowymi wyrównaniami parami wykonywanymi przez ClustalW. Funkcja ta jest przeznaczona głównie do usuwania problematycznych sekwencji z potoków wyrównywania, gdzie trudno jest (ręcznie) poprawić globalne wyrównanie później., Dla każdej sekwencji porównuje się średnią jej punktów wyrównania parowego z średnią dla wszystkich pozostałych sekwencji zgodnie z jednoelementowym testem t z dwiema próbkami, skorygowanym o wielokrotne porównania. Jako taka procedura jest najbardziej skuteczna w identyfikacji izolowanych problematycznych sekwencji, które mogą wynikać z włączenia potencjalnego paralogu lub po prostu błędnie zidentyfikowanej sekwencji. Rodziny takich sekwencji (np. jeśli zbiór danych zawiera liczne kopie każdego z paralogów z rodziny genów) są mniej narażone na wykrycie.,

ponieważ ClustalW ignoruje niejednoznaczne aminokwasy i zatrzymuje kodony (żadne z nich nie jest obecne w macierzach przejścia aminokwasów), transAlign tłumaczy je początkowo jako luki, aby umożliwić translację wsteczną. Procedura ta jest bezproblemowa, chyba że niejednoznaczny kodon pozostałości lub stop sąsiaduje z luką wynikającą z procedury wyrównania, gdzie może być umieszczony na początku lub końcu szczeliny. Dla niejednoznacznych pozostałości powstałych z niekompletnych kodonów, transAlign określa bardziej optymalne z dwóch miejsc na podstawie konkordancji brakującego (- ych) nukleotydu (- ów) z luką., Jednakże wszystkie takie przypadki nadal powinny być badane i, w razie potrzeby, korygowane indywidualnie podczas ręcznej kontroli, która odbywa się po każdej zautomatyzowanej procedurze dostosowania.

oczywiście użycie transAlign jest ograniczone tylko do kodowania sekwencji DNA i nie powinno być stosowane do niekodowania DNA, czy to w przypadku genów takich jak 18s rDNA (=MTRNR2;); flankowania UTR, regulacyjnych lub intronowych regionów genów; lub sekwencji mikrosatelitarnych. Na procedurę negatywnie wpływają również przesunięcia ramek (np. błędy sekwencjonowania)., W związku z tym transAlign w minimalnym stopniu wyda ostrzeżenie dla każdej sekwencji, która zawiera więcej niż określony przez użytkownika próg kodonów stop (z wyłączeniem kodonu terminala) w optymalnej orientacji. Próg ten może być bezwzględną liczbą kodonów stop (domyślnie) lub procentami kodonów stop w pozostałej sekwencji po napotkaniu pierwszego kodonu stop., Chociaż procedura ta jest ogólnie solidna, jest mniej prawdopodobne, aby wykryć przesunięcia ramek, które występują w pobliżu każdego końca danej sekwencji ze względu na zmniejszone prawdopodobieństwo wystąpienia błędnego kodonu stop w kilku pozostałych rezydencjach.

w transAlign zaimplementowano trzy globalne rozwiązania dla dowolnych sekwencji przesuniętych klatek: 1) usunięcie, 2) wyrównanie przy użyciu tłumaczonych sekwencji niezależnie (z powiązanymi błędami), lub 3) późniejsze wyrównanie profilu jako DNA do wyrównanego zbioru sekwencji bez przesunięcia klatek (domyślnie)., Ta ostatnia opcja jest najwolniejsza z trzech, ale pozwala na możliwie najwolniejsze wyrównanie wszystkich sekwencji. Co więcej, nawet częściowe wyrównanie profilu zawsze będzie szybsze niż wyrównanie wszystkich sekwencji jako DNA( Rysunek 1), niezależnie od rzeczywistego przyspieszenia związanego z wyrównaniem krótszych sekwencji aminokwasów. Jednak wydajność szybko spadnie wraz ze wzrostem odsetka sekwencji przesuniętych klatkami w zestawie danych., Na przykład, zakładając przyspieszenie 9x dla wyrównywania aminokwasów w porównaniu z DNA (co, jak wspomniano, jest wartością oczekiwaną w oparciu tylko o względy długości), Całkowita oszczędność czasu będzie tylko około 2x, jeśli sekwencje przesunięte klatką zawierają 25% wszystkich sekwencji (patrz rysunek 1). Wreszcie, aby ułatwić ręczną kontrolę zbioru danych, transAlign spróbuje również wywnioskować przypuszczalne lokalizacje dla indeli przesuwających ramki na podstawie porównania luk między sekwencjami wyrównanymi aminokwasami i profilami DNA.,

Rysunek 1

teoretyczne zwiększenie prędkości dzięki wykonaniu przetłumaczonego wyrównania. Rysunek ujawnia tam jest zawsze wydajność przewaga w wyrównywaniu jakaś dana proporcja protein kodujący DNA sekwencje w dane zbiorze przez ich amino-kwas translacje z pozostałymi DNA sekwencje następnie profil-wyrównujący je., Pokazana krzywa opiera się na założeniu, że przetłumaczone wyrównanie jest średnio 9x szybsze niż odpowiednie wyrównanie DNA; inne wartości dają prawie identyczne krzywe o różnych skalach.

jak wspomniano powyżej, transAlign wyświetli wyrównane sekwencje DNA w dowolnym lub wszystkich formatach FASTA, nexus, (klasyczny lub rozszerzony) PHYLIP lub se-Al. Domyślnie sekwencje są wyświetlane w porządku alfabetycznym zgodnie z ich nazwą., Jednak możliwe jest również ich wyjście, aby dopasować ich kolejność w oryginalnym pliku wejściowym lub tak, jak zostały one wyprowadzone z wyrównania ClustalW. Ta ostatnia opcja jest szczególnie przydatna przy identyfikowaniu „rodzin” podobnych sekwencji lub tych sekwencji, które zostały wyrównane do profilu, aby ułatwić ręczną korektę globalnego wyrównania.

transAlign jest napisany w Perlu i jest open source. Będzie działać na dowolnym systemie operacyjnym z interpreterem Perla i jest uruchamiany z wiersza poleceń. Jednak posiada również tryb interaktywny użytkownika, w którym użytkownik jest proszony o ustawienie wszystkich istotnych zmiennych., Wymaga to, aby zdalnie wywoływalna Wersja ClustalW była obecna w ścieżce globalnej lub w określonej przez użytkownika. Ponownie jednak, niewielkie modyfikacje kodu pozwoliłyby na użycie dowolnego odpowiedniego programu wielokrotnego wyrównywania.


Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *