transAlign: ved hjelp av aminosyrer til rette for flere justering av protein-kodende DNA-sekvenser

0 Comments

transAlign kan automatisk lese DNA-sekvenser i noen av fire formater: fasta, nexus , klassisk eller «utvidet» PHYLIP, og Se-Al . Det kan også skrive den siste justering i noen av de samme formater. (Konvertering til eller fra flere formater kan oppnås gjennom andre programmer, for eksempel readSeq eller sreformat, en del av HMMER pakken .,) Noen grunnleggende filtrering av DNA-sekvenser er også implementert, inkludert stripping av hull (enten alle hull, eller bare de som flankerer en sekvens) og slette sekvenser med mer enn en bruker-definert prosentsats av tvetydige nukleotider (dvs., Ns).

Etter første gangs behandling av DNA-sekvenser, transAlign vil finne den optimale oversettelse for hver sekvens i henhold til noen av de genetiske kodene oppført av NCBI . Det er også mulig for Se-Al-formaterte data til å ha ulike genetiske koder spesifisert for hver sekvens., Så langt som mulig, transAlign oversetter codons inneholder tvetydig nukleotider (men ikke eksplisitt hull). Den optimale oversettelse er holdt for å være det som gir færrest stopp codons unntatt terminal codon. Som standard er det kun tre lesing rammer for skriving orientering er undersøkt, men det er mulig å undersøke supplert med motsatt fortegn, og omvendt-supplert retninger som godt., For like optimal orientering, transAlign favoriserer den ene perturberende den opprinnelige DNA-sekvens minst: i bestilling, 1) orientering som input, etterfulgt av den andre og tredje lesing rammer i den retning, og da de respektive å lese rammer i hver av de 2) utfyllende, 3) bakover, og 4) omvendt utfyllende orientering.

transAlign deretter går oversatt sekvenser for å ClustalW for justering (i henhold til noen av BLOSUM, GONNET eller PAM protein vekting matriser) og tilbake-oversetter den resulterende justert rester sekvenser inn justert DNA-sekvenser., ClustalW ble valgt fordi det er kanskje den best kjente og mest brukte flere justering programmet. Det har også den største utvalg av amino-syre overgang matriser (BLOSUM, GONNET, og PAM) og evnen til å gjøre profilen justeringer (se nedenfor). Men, med litt modifikasjoner til transAlign koden ville tillate bruk egnede flere justering program som tillater protein sekvens av data som input (f.eks., DIALIGN2 med sin Clustal-som output i særdeleshet)., Uavhengig av justering program som brukes, og det forventes at en økning i både hastighet og nøyaktighet i forhold til å justere sekvenser som DNA ville fortsatt oppstå gitt mange fordeler for å justere protein-kodende DNA-sekvenser som aminosyrer (se ovenfor).

Et alternativ er også gitt for å automatisk slette noen dårlig justere sekvenser som bestemmes av den første parvis justeringer utført av ClustalW. Denne funksjonen er ment for stor grad til å fjerne problematiske sekvenser fra justering rørledninger, der det er vanskelig å (manuelt) forbedre den globale justering etterpå., For hver sekvens, gjennomsnittet av sin parvis justering score er sammenlignet mellom alle de øvrige sekvenser i henhold til en one-tailed to-utvalg t-test, korrigert for multiple sammenligninger. Som sådan, er at behandlingen er mest effektiv på å identifisere isolert problematisk sekvenser, som kan utlede fra inkluderingen av en potensiell paralog eller bare et feilaktig identifisert rekkefølge. Familier av slike sekvenser (for eksempel, hvis datasettet inneholder mange kopier av hver av de paralogs fra et gen familie) er mindre sannsynlighet for å bli oppdaget.,

Fordi ClustalW ignorerer tvetydig aminosyrer og stoppe codons (verken å være til stede i amino-syre overgang matriser), transAlign oversetter dem først som hull for å tillate tilbake-oversettelse. Denne prosedyren er uproblematisk, med mindre tvetydig rester eller stoppe codon er tilstøtende til et gap utledes av justeringen prosedyre, hvor det kan plasseres på enten begynnelsen eller slutten av gapet. For tvetydig rester fremkommer fra ufullstendig codons, transAlign bestemmer mer optimal for to plasseringer basert på den samstemmighet som mangler nukleotid(e) med mellomrom., Men alle slike tilfeller bør likevel undersøkes og, om nødvendig, korrigert for på individuell basis under manuell inspeksjon som følger automatiske justeringen prosedyre.

Selvfølgelig, bruk av transAlign er begrenset til kodende DNA-sekvenser og bør ikke brukes for ikke-kodende DNA, enten for gener som 18S rDNA (= MTRNR2; ); flankerer UTR, lover og forskrifter, eller intronic regioner av gener, eller microsatellite sekvenser. Prosedyren er også negativt påvirket av ramme skift (f.eks., fra sekvensering feil)., Derfor, transAlign vil minimalt utstede en advarsel for hver sekvens som inneholder mer enn en bruker-spesifiserte terskelen til stopp codons (unntatt terminal codon) i optimal retning. Denne terskelen kan enten være et absolutt antall stopp codons (standard) eller en prosentandel av stopp codons i den gjenværende sekvensen etter første stopp codon er oppstått., Selv om denne prosedyren er vanligvis robust, det er mindre sannsynlighet for å oppdage ramme skift som forekommer nær begge ender av en gitt rekkefølge på grunn av redusert sannsynlighet for feil stoppe codon fremkommer i de få gjenværende bor.

de Tre globale løsninger for alle ramme-flyttet sekvenser er implementert i transAlign: 1) sletting, 2) justering ved hjelp av den oversatte sekvenser uansett (med tilhørende feil), eller 3) etterfølgende profil slik som DNA til justert sett av ikke-ramme-flyttet-sekvenser (standard)., Det siste alternativet er den tregeste av de tre, men lar alle sekvenser for å være justert så robust som mulig. Dessuten, selv en delvis profil justeringen vil alltid være raskere enn å samkjøre alle sekvenser som DNA (Figur 1), uavhengig av den faktiske speedup iboende å justere kortere amino-syre-sekvenser. Ytelsen vil imidlertid frafalt raskt som andel av rammen-flyttet sekvenser i datasettet øker., For eksempel, forutsatt en fart av 9x for å justere aminosyrer i forhold til DNA (som, som nevnt, er en verdi forventet, bare basert på lengde av kjemikalieavfall), den samlede sparer tid og vil bare være om 2x om ramme-flyttet sekvenser utgjør 25% av alle sekvenser (se Figur 1). Til slutt, for å legge til rette for manuell inspeksjon av datasettet, transAlign vil også forsøke å antyde mulige steder for ramme-skiftende indels basert på en sammenligning av gapene mellom amino-syre justert og DNA-profil-justert sekvenser.,

Figur 1

Teoretisk gevinst i hastighet fra å utføre en oversatt justering. Figuren viser at det er alltid en forestilling fordel å plassere en gitt andel av protein-kodende DNA-sekvenser i et datasett via deres amino-syre oversettelser med de resterende DNA-sekvenser senere profil-justert i forhold til dem., Kurven som vises, er basert på antagelsen om at den oversatte justering er 9x raskere, i gjennomsnitt, enn de respektive DNA-justering; andre verdier produserer nesten identiske kurver i ulike skalaer.

Som nevnt ovenfor, transAlign vil output justert DNA-sekvenser i noen eller alle av fasta, nexus, (klassisk eller utvidet) PHYLIP, eller Se-Al-formater. Standard sekvenser er utgang i alfabetisk rekkefølge i henhold til deres navn., Det er imidlertid også mulig å lagre dem for å matche deres orden i den opprinnelige input-fil eller som de var ut fra ClustalW justering. Det siste alternativet er spesielt nyttig på å identifisere «familier» av lignende sekvenser eller de sekvenser som ble profilen er justert for å lette manuell korrigering av den globale justering.

transAlign er skrevet i Perl og er åpen kildekode. Det vil kjøre på alle operativsystemer med en Perl tolk, og er kommando-linje drevet. Men, det har også en bruker-interaktiv modus hvor brukeren blir bedt om å angi alle relevante variabler., Det krever at en eksternt-callable versjon av ClustalW er tilstede i den globale banen eller i en bruker-som er angitt. Igjen, men små endringer i koden ville tillate bruk egnede flere justering programmet.


Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *