transAlign: using amino acids to facilitate the multiple alignment of protein-coding DNA sequences
transAlign can automatically read DNA sequences in any of four formats: FASTA, nexus , classic or „extended” PHYLIP, and Se-Al. Może również zapisać końcowe wyrównanie w dowolnym z tych samych formatów. (Konwersja do lub z dodatkowych formatów może być przeprowadzona za pomocą innych programów, takich jak readSeq lub sreformat, część pakietu HMMER .,) Pewne podstawowe filtrowanie sekwencji DNA jest również zaimplementowane, w tym usuwanie luk (albo wszystkie luki lub tylko te, które otaczają sekwencję) i usuwanie sekwencji z więcej niż zdefiniowanym przez użytkownika odsetkiem niejednoznacznych nukleotydów (NS).
po wstępnym przetworzeniu sekwencji DNA, transAlign określi optymalną translację dla każdej sekwencji zgodnie z którymkolwiek z kodów genetycznych wymienionych przez NCBI . Możliwe jest również, aby dane sformatowane przez Se-Al miały różne kody genetyczne określone dla każdej sekwencji., W miarę możliwości transAlign tłumaczy kodony zawierające niejednoznaczne nukleotydy (ale nie wyraźne luki). Optymalne tłumaczenie jest uważane za takie, które daje najmniej kodonów stop z wyłączeniem kodonów końcowych. Domyślnie badane są tylko trzy klatki odczytu dla orientacji wejścia; możliwe jest jednak zbadanie również orientacji uzupełnionej, odwróconej i uzupełnionej., Dla równie optymalnych orientacji, transAlign faworyzuje ten, który najmniej zaburza oryginalną sekwencję DNA: w kolejności, 1) orientacja jako wejście, następnie druga i trzecia ramka odczytu w tej orientacji, a następnie odpowiednie ramki odczytu w każdej z 2) komplementarnych, 3) odwrotnych i 4) odwrotnych-komplementarnych orientacji.
transAlign przekazuje następnie przetłumaczone sekwencje do ClustalW w celu wyrównania (zgodnie z dowolną matrycą ważącą białka BLOSUM, GONNET lub Pam) i z powrotem przekłada wynikowe wyrównane sekwencje pozostałości na wyrównane sekwencje DNA., ClustalW został wybrany, ponieważ jest prawdopodobnie najbardziej znanym i najczęściej używanym programem wielokrotnego wyrównywania. Oferuje również największy wybór matryc przejścia aminokwasów (BLOSUM, GONNET i PAM) oraz zdolność do wyrównywania profilu(patrz poniżej). Jednak niewielkie modyfikacje kodu transAlign pozwoliłyby na użycie dowolnego odpowiedniego programu wielokrotnego wyrównywania, który akceptuje dane sekwencji białek jako dane wejściowe (np. DIALIGN2 z jego clustal-like output w szczególności)., Niezależnie od zastosowanego programu wyrównywania, oczekuje się, że wzrost zarówno szybkości, jak i dokładności w porównaniu do wyrównywania sekwencji jako DNA nadal występuje, biorąc pod uwagę wiele zalet wyrównywania sekwencji DNA kodujących białka jako aminokwasy (patrz powyżej).
dostępna jest również opcja automatycznego usuwania wszelkich źle wyrównujących sekwencji, zgodnie z początkowymi wyrównaniami parami wykonywanymi przez ClustalW. Funkcja ta jest przeznaczona głównie do usuwania problematycznych sekwencji z potoków wyrównywania, gdzie trudno jest (ręcznie) poprawić globalne wyrównanie później., Dla każdej sekwencji porównuje się średnią jej punktów wyrównania parowego z średnią dla wszystkich pozostałych sekwencji zgodnie z jednoelementowym testem t z dwiema próbkami, skorygowanym o wielokrotne porównania. Jako taka procedura jest najbardziej skuteczna w identyfikacji izolowanych problematycznych sekwencji, które mogą wynikać z włączenia potencjalnego paralogu lub po prostu błędnie zidentyfikowanej sekwencji. Rodziny takich sekwencji (np. jeśli zbiór danych zawiera liczne kopie każdego z paralogów z rodziny genów) są mniej narażone na wykrycie.,
ponieważ ClustalW ignoruje niejednoznaczne aminokwasy i zatrzymuje kodony (żadne z nich nie jest obecne w macierzach przejścia aminokwasów), transAlign tłumaczy je początkowo jako luki, aby umożliwić translację wsteczną. Procedura ta jest bezproblemowa, chyba że niejednoznaczny kodon pozostałości lub stop sąsiaduje z luką wynikającą z procedury wyrównania, gdzie może być umieszczony na początku lub końcu szczeliny. Dla niejednoznacznych pozostałości powstałych z niekompletnych kodonów, transAlign określa bardziej optymalne z dwóch miejsc na podstawie konkordancji brakującego (- ych) nukleotydu (- ów) z luką., Jednakże wszystkie takie przypadki nadal powinny być badane i, w razie potrzeby, korygowane indywidualnie podczas ręcznej kontroli, która odbywa się po każdej zautomatyzowanej procedurze dostosowania.
oczywiście użycie transAlign jest ograniczone tylko do kodowania sekwencji DNA i nie powinno być stosowane do niekodowania DNA, czy to w przypadku genów takich jak 18s rDNA (=MTRNR2;); flankowania UTR, regulacyjnych lub intronowych regionów genów; lub sekwencji mikrosatelitarnych. Na procedurę negatywnie wpływają również przesunięcia ramek (np. błędy sekwencjonowania)., W związku z tym transAlign w minimalnym stopniu wyda ostrzeżenie dla każdej sekwencji, która zawiera więcej niż określony przez użytkownika próg kodonów stop (z wyłączeniem kodonu terminala) w optymalnej orientacji. Próg ten może być bezwzględną liczbą kodonów stop (domyślnie) lub procentami kodonów stop w pozostałej sekwencji po napotkaniu pierwszego kodonu stop., Chociaż procedura ta jest ogólnie solidna, jest mniej prawdopodobne, aby wykryć przesunięcia ramek, które występują w pobliżu każdego końca danej sekwencji ze względu na zmniejszone prawdopodobieństwo wystąpienia błędnego kodonu stop w kilku pozostałych rezydencjach.
w transAlign zaimplementowano trzy globalne rozwiązania dla dowolnych sekwencji przesuniętych klatek: 1) usunięcie, 2) wyrównanie przy użyciu tłumaczonych sekwencji niezależnie (z powiązanymi błędami), lub 3) późniejsze wyrównanie profilu jako DNA do wyrównanego zbioru sekwencji bez przesunięcia klatek (domyślnie)., Ta ostatnia opcja jest najwolniejsza z trzech, ale pozwala na możliwie najwolniejsze wyrównanie wszystkich sekwencji. Co więcej, nawet częściowe wyrównanie profilu zawsze będzie szybsze niż wyrównanie wszystkich sekwencji jako DNA( Rysunek 1), niezależnie od rzeczywistego przyspieszenia związanego z wyrównaniem krótszych sekwencji aminokwasów. Jednak wydajność szybko spadnie wraz ze wzrostem odsetka sekwencji przesuniętych klatkami w zestawie danych., Na przykład, zakładając przyspieszenie 9x dla wyrównywania aminokwasów w porównaniu z DNA (co, jak wspomniano, jest wartością oczekiwaną w oparciu tylko o względy długości), Całkowita oszczędność czasu będzie tylko około 2x, jeśli sekwencje przesunięte klatką zawierają 25% wszystkich sekwencji (patrz rysunek 1). Wreszcie, aby ułatwić ręczną kontrolę zbioru danych, transAlign spróbuje również wywnioskować przypuszczalne lokalizacje dla indeli przesuwających ramki na podstawie porównania luk między sekwencjami wyrównanymi aminokwasami i profilami DNA.,