transAlign: käyttämällä aminohappoja helpottamaan useita linjaus proteiini-koodaus DNA numerosarjat

0 Comments

transAlign voi automaattisesti lukea DNA-sekvenssit tahansa neljästä muodoissa: fasta, nexus , klassinen tai ”laajennettu” PHYLIP, ja Se-Al . Se voi myös kirjoittaa lopullisen linjauksen missä tahansa näistä samoista formaateista. (Muuntaminen tai muita formaatteja voidaan tehdä avulla muita ohjelmia, kuten readSeq tai sreformat, osa HMMER-paketti .,) Jotkut perus-suodatus DNA-sekvenssit on myös toteutettu, mukaan lukien strippaus aukkoja (joko kaikki aukot tai vain ne reunustavat järjestyksessä) ja poistamalla sekvenssit, joissa on enemmän kuin käyttäjän määrittämä prosenttiosuus epäselvä nukleotidien (eli Ns).

sen Jälkeen, kun alustava käsittely DNA-sekvenssit, transAlign määrittää optimaalinen käännös kunkin sekvenssin mukaan mitään geneettisiä koodeja lueteltu NCBI . On myös mahdollista, että Se-Al-formatoiduilla tiedoilla on eri geneettiset koodit kullekin sekvenssille., Transalignilla tarkoitetaan mahdollisuuksien mukaan koodoneja, jotka sisältävät monitulkintaisia nukleotideja (mutta eivät selviä aukkoja). Optimaalinen käännös pidetään, että saadaan vähiten stop kodonien lukuun ottamatta terminaalin kodonissa. Oletusarvoisesti vain kolme lukemisen kehykset tulo suunta on tutkinut, kuitenkin, se on mahdollista tutkia, täydentää, kumota, ja reverse-täydentävät suuntaviivat samoin., Sillä yhtä optimaalinen suuntaviivat, transAlign suosii yksi perturbing alkuperäinen DNA-sekvenssi ainakin: jotta, 1) suunta-syötteenä, jonka jälkeen toisessa ja kolmannessa käsittelyssä kehyksiä, että suunta, ja sitten vastaava lukema kehykset kussakin 2) täydentävä, 3) kääntää, ja 4) käänteinen-toisiaan täydentäviä suuntauksia.

transAlign sitten kulkee käännetty sekvenssit ClustalW linjaus (mukaan mitään BLOSUM, GONNET tai PAM proteiinia painotus matriisit) ja back-kääntää tuloksena tietokoneella jäännös-sekvenssejä kohdakkain DNA-sekvenssit., ClustalW valittiin, koska se on ehkä tunnetuin ja eniten käytetty useita-tasaus-ohjelma. Se myös tarjoaa suurin valinta aminohappo siirtyminen matriisit (BLOSUM, GONNET, ja PAM) ja kyky tehdä profiilin linjauksia (ks.alla). Kuitenkin hieman muutoksia transAlign koodi olisi mahdollista käyttää mitä tahansa sopivaa useita-tasaus-ohjelma, joka hyväksyy proteiinin sekvenssi tietoja (esim DIALIGN2 sen Clustal-kuten tuotos erityisesti)., Riippumatta siitä, linjaus ohjelma, jota käytetään, on odotettavissa, että lisää sekä nopeutta ja tarkkuutta verrattuna kohdistamalla sekvenssit, kuten DNA: ta olisi silti esiintyä, koska monia etuja kohdistamalla proteiini-koodaus DNA numerosarjat, kuten aminohappoja (ks.edellä).

vaihtoehto on myös poistaa automaattisesti kaikki huonosti kohdistamalla sekvenssit määräytyy alkuperäisen pareittain linjaukset suoritetaan ClustalW. Tämän ominaisuuden tarkoituksena on suurelta osin poistaa ongelmalliset sekvenssit linjausputkista, joissa on vaikea (manuaalisesti) parantaa globaalia linjausta jälkikäteen., Kunkin järjestyksessä, siis sen pairwise linjaus tulokset on verrattuna, että välillä kaikki jäljellä olevat sekvenssit mukaan yksisuuntainen two-sample t-test korjattu useita vertailuja varten. Näin ollen menettely on tehokkain yksilöidä yksittäisiä ongelmallisia sekvenssejä, jotka voivat johtua sisällyttämällä mahdollinen paralogi tai yksinkertaisesti väärin tunnistettu sekvenssi. Tällaisten sekvenssien perheitä (esim.jos tietokokonaisuus sisältää lukuisia kopioita jokaisesta geeniperheen paralogista) on vähemmän todennäköisesti havaittavissa.,

Koska ClustalW ohittaa epäselvä aminohappoja ja stop kodonien (kumpikaan on läsnä aminohappo siirtyminen matriisit), transAlign kääntää niitä aluksi aukot mahdollistavat takaisin-käännös. Tämä menettely on ongelmatonta, ellei epäselvä jäämiä tai stop-kodoni on vieressä aukko päätellä linjaus menettely, jossa se voidaan sijoittaa joko alkuun tai loppuun kuilu. Ristiriitaisia jäämiä, jotka johtuvat epätäydellinen kodonien, transAlign määrittää optimaalinen kahden sijoittelut perustuvat yhdenmukaisuus sekä puuttuva nukleotidi(s) ja aukon., Kuitenkin, kaikki tällaiset tapaukset, olisi edelleen tutkittava ja tarvittaessa korjataan tapauskohtaisesti aikana manuaalinen tarkastus, joka seuraa jokin automaattinen kohdistus.

on Selvää, käyttää transAlign on rajoitettu koodaus DNA numerosarjat vain, eikä sitä pitäisi käyttää non-coding DNA, onko geenit kuten 18S rDNA (= MTRNR2; ); reunustavat UTR -, sääntely-tai intronic alueiden geenit; tai mikrosatelliitti-sekvenssit. Menettelyyn vaikuttavat haitallisesti myös runkovirrat (esim.jaksottamisvirheet)., Siksi, transAlign on minimaalisesti antaa varoituksen kunkin sekvenssin, joka sisältää yli käyttäjän määrittämän kynnyksen stop kodonien (lukuun ottamatta terminaalin kodonissa) optimaalinen suunta. Tämä raja-arvo voi olla joko absoluuttinen määrä stop kodonien (oletus) tai tietty prosenttiosuus stop kodonien jäljellä järjestyksessä, kun ensimmäinen stop-kodoni on kohdannut., Vaikka tämä menettely on yleensä vankka, se on vähemmän todennäköisesti havaita runko muutoksia, jotka tapahtuvat lähellä joko loppuun tietyssä järjestyksessä, koska alennettua todennäköisyys virheelliseen stop-kodoni, jotka johtuvat muutama jäljellä asuu.

Kolme maailmanlaajuisia ratkaisuja tahansa runko-siirtynyt sekvenssit ovat toteutettu transAlign: 1) poisto, 2) linjaus käyttäen käännetty sekvenssit riippumatta (liittyvät virheet), tai 3) myöhempi profiilin kohdistus DNA linjassa joukko ei-runko-siirtynyt sekvenssit (oletus)., Jälkimmäinen vaihtoehto on kolmikosta hitain, mutta mahdollistaa kaikkien sekvenssien linjaamisen mahdollisimman tarkasti. Lisäksi jopa osittainen profiilin kohdistus on aina nopeampi kuin kohdistamalla kaikki sekvenssit, kuten DNA: ta (Kuva 1), riippumatta todellinen speedup luonnostaan yhdenmukaistaa lyhyempi aminohappo-sekvenssit. Suorituskyky kuitenkin putoaa nopeasti pois, kun frame-siirrettyjen sekvenssien osuus tietojoukossa kasvaa., Esimerkiksi, jos oletetaan, master of 9x yhdenmukaistaa aminohappoja verrattuna DNA: n (joka, kuten mainittu, on arvo odotettavissa perustuu vain pituus huomioiden), yleinen säästää aikaa vain noin 2x jos runko-siirtynyt sekvenssit muodostavat 25% kaikista sekvensseistä (ks. Kuva 1). Vihdoin, helpottaa manuaalinen tarkastus aineisto, transAlign myös yrittää päätellä oletetun paikkoja runko-siirtymässä indels vertailun perusteella erot aminohappo linjassa ja DNA-tietokoneella sekvenssit.,

Kuva 1

Teoreettinen voitto nopeus suorittaa käännetty linjaus. Kuva paljastaa, on aina suorituskyky etu kohdistamalla tahansa osa proteiini-koodaus DNA numerosarjat show data set kautta aminohappo käännökset jäljellä olevat DNA-sekvenssit myöhemmin profiili-kohdistettu heille., Käyrä kuvassa perustuu oletukseen, että käännetty linjaus on 9x nopeammin, keskimäärin, kuin vastaavat DNA-linjaus; muut arvot tuottavat lähes identtiset käyrät eri mittakaavoissa.

Kuten edellä mainittiin, transAlign lähtö linjassa DNA-sekvenssit tahansa tai kaikki fasta, nexus, (klassinen tai laajennettu) PHYLIP, tai Se-Al-formaatteja. Oletuksena sekvenssit ovat tuotos aakkosjärjestyksessä nimensä mukaisesti., On kuitenkin myös mahdollista lähettää ne vastaamaan niiden järjestystä alkuperäisessä tulotiedostossa tai koska ne olivat lähtö ClustalW linjaus. Jälkimmäinen vaihtoehto on erityisen hyödyllinen, tunnistaa ”perheitä” vastaavia sekvenssejä tai ne sekvenssit, jotka olivat profile-linjassa helpottaa manuaalinen korjaus maailmanlaajuinen yhdenmukaistaminen.

transAlign on kirjoitettu Perlissä ja on avoin lähdekoodi. Se toimii missä tahansa käyttöjärjestelmässä Perl-tulkin kanssa ja on komentorivikäyttöinen. Siinä on kuitenkin myös käyttäjän interaktiivinen tila, jossa käyttäjää pyydetään asettamaan kaikki asiaankuuluvat muuttujat., Se edellyttää, että kauko-vaadittaessa maksettavaa versio ClustalW on läsnä joko global-polku tai käyttäjän määrittelemän yksi. Jälleen, kuitenkin, pieniä muutoksia koodi mahdollistaisi käyttää mitä tahansa sopivaa monitasaus ohjelma.


Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *