transAlign: het gebruik van aminozuren om de meervoudige uitlijning van eiwitcoderende DNA-sequenties
transAlign kan automatisch DNA-sequenties lezen in een van de vier formaten: fasta, nexus , classic of “extended” PHYLIP, en Se-Al . Het kan ook de uiteindelijke uitlijning in een van deze zelfde formaten schrijven. (Conversie naar of Van extra formaten kan worden bereikt door middel van andere programma ‘ s zoals readSeq of sreformat, onderdeel van het HMMER-pakket .,) Sommige fundamentele filtering van de DNA-sequenties wordt ook uitgevoerd, met inbegrip van het strippen van hiaten (of alle hiaten of alleen die flankeren een sequentie) en het verwijderen van sequenties met meer dan een door de gebruiker gedefinieerd percentage dubbelzinnige nucleotiden (d.w.z., Ns).
na de eerste verwerking van de DNA-sequenties zal transAlign de optimale vertaling voor elke sequentie bepalen volgens een van de door de NCBI vermelde genetische codes . Het is ook mogelijk voor SE-Al geformatteerde gegevens om verschillende genetische codes te hebben die voor elke opeenvolging worden gespecificeerd., Voor zover mogelijk vertaalt transAlign codons die dubbelzinnige nucleotiden bevatten (maar geen expliciete hiaten). De optimale vertaling wordt gehouden dat het opleveren van de minste stop codon met uitzondering van de terminal codon. Standaard worden alleen de drie leesframes voor de inputoriëntatie onderzocht; het is echter mogelijk om ook de gecomplementeerde, omgekeerde en omgekeerde gecomplementeerde oriëntaties te onderzoeken., Voor even optimale oriëntaties geeft transAlign de voorkeur aan degene die de oorspronkelijke DNA-sequentie het minst verstoort: in volgorde, 1) de oriëntatie als input, gevolgd door de tweede en derde leesframes in die oriëntatie, en vervolgens de respectieve leesframes in elk van de 2) complementaire, 3) omgekeerde, en 4) Omgekeerde-complementaire oriëntaties.
transAlign geeft vervolgens de vertaalde sequenties door aan ClustalW voor uitlijning (volgens een van de BLOSUM -, GONNET-of PAM-eiwitgewichtmatrices) en vertaalt de resulterende uitgelijnde residusequenties in uitgelijnde DNA-sequenties., ClustalW werd gekozen omdat het misschien wel het meest bekende en meest gebruikte multiple-alignment programma is. Het biedt ook de grootste keuze aan aminozuurtransitiematrices (BLOSUM, GONNET, en PAM) en de mogelijkheid om profieluitlijningen te doen (zie hieronder). Echter, kleine wijzigingen aan de transAlign code zou het gebruik van een geschikte multiple-alignment programma dat eiwit sequentie gegevens als input (bijvoorbeeld DIALIGN2 met zijn Clustal-achtige output in het bijzonder)., Ongeacht het gebruikte uitlijningsprogramma, wordt verwacht dat de verhogingen van zowel snelheid als nauwkeurigheid in vergelijking met het uitlijnen van de opeenvolgingen als DNA nog gezien de vele voordelen voor het uitlijnen van eiwit-coderende opeenvolgingen van DNA als aminozuren (zie hierboven) zouden voorkomen.
Er is ook een optie beschikbaar om slecht uitlijnende sequenties automatisch te verwijderen, zoals bepaald door de initiële paarsgewijze uitlijningen uitgevoerd door ClustalW. Deze functie is grotendeels bedoeld om problematische sequenties uit alignment pipelines te verwijderen, waar het moeilijk is om de Globale alignment achteraf (handmatig) te verbeteren., Voor elke opeenvolging wordt het gemiddelde van zijn paarsgewijze uitlijningsscores vergeleken met dat tussen alle resterende opeenvolgingen volgens een eenzijdige t-test met twee monsters, gecorrigeerd voor meervoudige vergelijkingen. Als zodanig, is de procedure het meest efficiënt bij het identificeren van geïsoleerde problematische opeenvolgingen, die uit de opname van een potentiële paralog of eenvoudig een verkeerd geà dentificeerde opeenvolging zouden kunnen voortvloeien. De Families van dergelijke opeenvolgingen (b. v., als de gegevensverzameling talrijke exemplaren van elk van de paralogs van een genfamilie bevat) zullen minder waarschijnlijk worden ontdekt.,
omdat ClustalW dubbelzinnige aminozuren negeert en codonen stopt (geen van beide aanwezig in de aminozuurtransitiematrices), vertaalt transAlign ze aanvankelijk als hiaten om back-translation mogelijk te maken. Deze procedure is probleemloos, tenzij het dubbelzinnige residu-of stopcodon grenst aan een opening die door de alignatieprocedure wordt afgeleid, waar het aan het begin of het einde van de opening kan worden geplaatst. Voor dubbelzinnige residuen die voortvloeien uit onvolledige codons, bepaalt transAlign de meer optimale van de twee plaatsingen gebaseerd op de concordantie van de ontbrekende nucleotide(s) met de kloof., Al deze gevallen moeten echter nog steeds worden onderzocht en, indien nodig, op individuele basis worden gecorrigeerd tijdens de handmatige inspectie die volgt op een geautomatiseerde uitlijningsprocedure.
het gebruik van transAlign is uiteraard beperkt tot alleen coderende DNA-sequenties en mag niet worden gebruikt voor niet-coderende DNA-sequenties, of het nu gaat om genen zoals 18S rDNA (= MTRNR2;), flankerende UTR, regulerende of intronische gebieden van genen, of microsatellietsequenties. De procedure wordt ook negatief beïnvloed door frame verschuivingen (bijvoorbeeld van sequencing fouten)., Daarom zal transAlign minimaal een waarschuwing geven voor elke sequentie die meer dan een door de gebruiker gespecificeerde drempel van stopcodons bevat (exclusief het terminale codon) in de optimale oriëntatie. Deze drempel kan een absoluut aantal stopcodon (standaard) zijn of een percentage stopcodon in de resterende reeks nadat het eerste stopcodon is aangetroffen., Hoewel deze procedure over het algemeen robuust is, is het minder waarschijnlijk om frameverschuivingen te detecteren die zich aan beide uiteinden van een bepaalde reeks voordoen vanwege de verminderde kans op een foutief stopcodon dat zich in de weinige resterende verblijfplaatsen voordoet.
drie globale oplossingen voor om het even welke frame-verschoven opeenvolgingen worden geà mplementeerd in transAlign: 1) schrapping, 2) uitlijning met behulp van de vertaalde opeenvolgingen ongeacht (met de bijbehorende fouten), of 3) daaropvolgende profieluitlijning als DNA met de uitgelijnde reeks niet-frame-verschoven sequenties (standaard)., De laatste optie is de langzaamste van de drie, maar staat toe dat alle sequenties zo robuust mogelijk worden uitgelijnd. Bovendien zal zelfs een gedeeltelijke profieluitlijning altijd sneller zijn dan het uitlijnen van alle sequenties als DNA (figuur 1), ongeacht de daadwerkelijke versnelling die inherent is aan het uitlijnen van de kortere aminozuursequenties. De prestaties zullen echter snel dalen naarmate het aandeel van frame-verschoven sequenties in de dataset toeneemt., Bijvoorbeeld, uitgaande van een versnelling van 9x voor het uitlijnen van aminozuren in vergelijking met DNA (die, zoals vermeld, de verwachte waarde is alleen gebaseerd op lengteoverwegingen), zal de totale tijdbesparing slechts ongeveer 2x zijn als frame-verschoven sequenties 25% van alle sequenties uitmaken (zie Figuur 1). Ten slotte, om de handmatige inspectie van de dataset te vergemakkelijken, zal transAlign ook proberen om veronderstelde locaties voor frame-shifting indels af te leiden op basis van een vergelijking van hiaten tussen de aminozuur uitgelijnd en DNA-profiel uitgelijnde sequenties.,
zoals hierboven vermeld, zal transAlign de uitgelijnde DNA-sequenties uitvoeren in een of alle fasta -, nexus -, (classic of extended) PHYLIP-of Se-Al-formaten. Standaard worden de reeksen uitgevoerd in alfabetische volgorde volgens hun naam., Echter, het is ook mogelijk om ze uit te voeren om hun volgorde in het oorspronkelijke invoerbestand of als ze werden uitgevoerd van de ClustalW uitlijning. De laatste optie is vooral nuttig bij het identificeren van “families” van soortgelijke sequenties of die sequenties die profiel-uitgelijnd waren om elke handmatige correctie van de Globale alignment te vergemakkelijken.
transAlign is geschreven in Perl en is open source. Het zal draaien op elk besturingssysteem met een Perl interpreter en is command-line driven. Echter, het beschikt ook over een gebruiker-Interactieve modus waar de gebruiker wordt gevraagd om alle relevante variabelen in te stellen., Het vereist dat een op afstand opvraagbare versie van ClustalW aanwezig is in het globale pad of in een door de gebruiker opgegeven. Nogmaals, echter, kleine wijzigingen in de code zou het gebruik van een geschikte multiple-alignment programma.