transAlign: uso de aminoácidos para facilitar la alineación múltiple de secuencias de ADN codificantes de proteínas
transAlign puede leer automáticamente secuencias de ADN en cualquiera de los cuatro formatos: fasta, nexus , Classic O «extended» PHYLIP, y Se-Al . También puede escribir la alineación final en cualquiera de estos mismos formatos. (La conversión hacia o desde formatos adicionales se puede lograr a través de otros programas como readSeq o sreformat, parte del paquete HMMER .,) También se implementa algún filtrado básico de las secuencias de ADN, incluyendo la eliminación de huecos (ya sea todos los huecos o solo los que flanquean una secuencia) y la eliminación de secuencias con más de un porcentaje definido por el usuario de nucleótidos ambiguos (es decir, Ns).
Después del procesamiento inicial de las secuencias de ADN, transAlign determinará la traducción óptima para cada secuencia de acuerdo con cualquiera de los códigos genéticos enumerados por el NCBI . También es posible que los datos formateados Se-Al tengan códigos genéticos diferentes especificados para cada secuencia., En la medida de lo posible, transAlign traduce codones que contienen nucleótidos ambiguos (pero no lagunas explícitas). La traducción óptima es la que produce el menor número de codones de parada excluyendo el codón terminal. De forma predeterminada, solo se examinan los tres marcos de lectura para la orientación de entrada; sin embargo, también es posible examinar las orientaciones complementadas, invertidas y complementadas inversamente., Para orientaciones igualmente óptimas, transAlign favorece la que perturba menos la secuencia de ADN original: en orden, 1) la orientación como entrada, seguida de los marcos de lectura segundo y tercero en esa orientación, y luego los marcos de lectura respectivos en cada una de las 2) complementarias, 3) inversas, y 4) orientaciones complementarias inversas.
transAlign luego pasa las secuencias traducidas a ClustalW para su alineación (de acuerdo con cualquiera de las matrices de ponderación de proteínas BLOSUM, GONNET o PAM) y vuelve a traducir las secuencias de residuos alineadas resultantes en secuencias de ADN alineadas., ClustalW fue elegido porque es quizás el programa de alineación múltiple más conocido y más utilizado. También ofrece la mayor selección de matrices de transición de aminoácidos (BLOSUM, GONNET y PAM) y la capacidad de hacer alineaciones de perfiles (ver a continuación). Sin embargo, ligeras modificaciones al código transAlign permitirían el uso de cualquier programa de alineación múltiple adecuado que acepte datos de secuencia de proteínas como entrada (por ejemplo, DIALIGN2 con su salida Clustal en particular)., Independientemente del programa de alineación utilizado, se espera que los aumentos en la velocidad y la precisión en comparación con la alineación de las secuencias como ADN todavía se producirían dadas las muchas ventajas para alinear las secuencias de ADN codificante de proteínas como aminoácidos (ver arriba).
también se proporciona una opción para eliminar automáticamente cualquier secuencia de alineación deficiente determinada por las alineaciones en pares iniciales realizadas por ClustalW. Esta característica está destinada en gran medida a eliminar secuencias problemáticas de tuberías de alineación, donde es difícil (manualmente) mejorar la alineación global después., Para cada secuencia, la media de sus puntajes de alineación en pares se compara con la de todas las secuencias restantes de acuerdo con una prueba t de dos muestras de una cola corregida para comparaciones múltiples. Como tal, el procedimiento es más eficaz en la identificación de secuencias problemáticas aisladas, que podrían derivarse de la inclusión de un paralog potencial o simplemente una secuencia mal identificada. Las familias de tales secuencias (por ejemplo, si el conjunto de Datos contiene numerosas copias de cada uno de los paralogs de una familia de genes) tienen menos probabilidades de ser detectadas.,
debido a que ClustalW ignora los aminoácidos ambiguos y detiene los codones (que no están presentes en las matrices de transición de aminoácidos), transAlign los traduce inicialmente como huecos para permitir la retrotraducción. Este procedimiento no es problemático a menos que el codón de residuo o parada Ambiguo esté adyacente a una brecha inferida por el procedimiento de alineación, donde podría colocarse al principio o al final de la brecha. Para residuos ambiguos que surgen de codones incompletos, transAlign determina la más óptima de las dos colocaciones basadas en la concordancia de los nucleótidos faltantes con el gap., Sin embargo, todos estos casos deben examinarse y, si es necesario, corregirse individualmente durante la inspección manual que sigue cualquier procedimiento automatizado de alineación.
obviamente, el uso de transAlign está restringido a la codificación de secuencias de ADN solamente y no debe ser utilizado para el ADN no codificante, ya sea para genes como 18S rDNA (= MTRNR2;); flanqueando UTR, regiones reguladoras o intrónicas de genes; o secuencias de microsatélites. El procedimiento también se ve afectado negativamente por los cambios de marco (por ejemplo, de los errores de secuenciación)., Por lo tanto, transAlign emitirá mínimamente una advertencia para cada secuencia que contenga más de un umbral especificado por el usuario de codones de parada (excluyendo el codón terminal) en la orientación óptima. Este umbral puede ser un número absoluto de codones de parada (predeterminado) o un porcentaje de codones de parada en la secuencia restante después de que se encuentre el primer codón de parada., Aunque este procedimiento es generalmente robusto, es menos probable detectar cambios de marco que ocurren cerca de cualquier extremo de una secuencia dada debido a la probabilidad reducida de un codón de parada erróneo que surge en los pocos resides restantes.
en transAlign se implementan tres soluciones globales para cualquier secuencia cambiada de Marco: 1) Eliminación, 2) alineación utilizando las secuencias traducidas independientemente (con los errores asociados), o 3) alineación de perfil posterior como ADN al conjunto alineado de secuencias no cambiadas de marco (predeterminado)., La última opción es la más lenta de las tres, pero permite que todas las secuencias se alineen lo más robustamente posible. Además, incluso una alineación parcial del perfil siempre será más rápida que la alineación de todas las secuencias como ADN (Figura 1), independientemente de la velocidad real inherente a la alineación de las secuencias de aminoácidos más cortas. Sin embargo, el rendimiento disminuirá rápidamente a medida que aumente la proporción de secuencias con desplazamiento de fotogramas en el conjunto de datos., Por ejemplo, suponiendo un aumento de velocidad de 9x para alinear los aminoácidos en comparación con el ADN (que, como se mencionó, es el valor esperado basado solo en consideraciones de longitud), el ahorro total de tiempo solo será de aproximadamente 2x si las secuencias cambiadas de Marco comprenden el 25% de todas las secuencias (ver Figura 1). Finalmente, para facilitar la inspección manual del conjunto de datos, transAlign también intentará inferir ubicaciones putativas para Indel de cambio de marco basado en una comparación de las brechas entre las secuencias alineadas con aminoácidos y las secuencias alineadas con perfiles de ADN.,
como se mencionó anteriormente, transAlign emitirá las secuencias de ADN alineadas en cualquiera o todos los formatos fasta, nexus, phylip (clásico o extendido) o se-al. De forma predeterminada, las secuencias se muestran en orden alfabético según su nombre., Sin embargo, también es posible enviarlos para que coincidan con su orden en el archivo de entrada original o como se emitieron desde La alineación de ClustalW. Esta última opción es particularmente útil para identificar «familias» de secuencias similares o aquellas secuencias que fueron alineadas de perfil para facilitar cualquier corrección manual de la alineación global.
transAlign está escrito en Perl y es de código abierto. Se ejecutará en cualquier sistema operativo con un intérprete de Perl y está dirigido por línea de comandos. Sin embargo, también cuenta con un modo interactivo donde se le pide al usuario que establezca todas las variables relevantes., Requiere que una versión de ClustalW llamable de forma remota esté presente en la ruta global o en una especificada por el usuario. Una vez más, sin embargo, ligeras modificaciones en el código permitirían el uso de cualquier programa de alineación múltiple adecuado.