transAlign: a utilização de aminoácidos para facilitar o múltiplo alinhamento de proteínas de codificação de sequências de DNA
transAlign pode ler automaticamente sequências de DNA em qualquer um dos quatro formatos: fasta, nexus , clássico ou “extended” PHYLIP, e Se-Al . Ele também pode escrever o alinhamento final em qualquer um desses mesmos formatos. (Conversão para ou a partir de formatos adicionais pode ser realizada através de outros programas como readSeq ou sreformat, parte do pacote HMMER ., Algumas filtragens básicas das sequências de ADN também são implementadas, incluindo a remoção de lacunas (ou todas as lacunas ou apenas aquelas que flanqueiam uma sequência) e a remoção de sequências com mais do que uma percentagem definida pelo utilizador de nucleótidos ambíguos (ou seja, Ns).após o processamento inicial das sequências de ADN, o transAlign determinará a tradução óptima para cada sequência de acordo com qualquer um dos códigos genéticos enumerados pelo NCBI . Também é possível que dados formatados Se-Al tenham diferentes códigos genéticos especificados para cada sequência., Na medida do possível, o transAlign traduz codões contendo nucleótidos ambíguos (mas não lacunas explícitas). A tradução ideal é a que dá menos codões de paragem, excluindo o codão terminal. Por padrão, apenas os três quadros de leitura para a orientação de entrada são examinados; no entanto, é possível examinar as orientações complementadas, invertidas e reversas também., Para igualmente ideal orientações, transAlign favorece a perturbar o original sequência de DNA a menos: no fim, 1) a orientação como entrada, seguida pela segunda e terceira leitura de quadros em que a orientação e, em seguida, a respectiva leitura de quadros em cada um dos 2) complementar, 3) inverter, e 4) reverso-complementar as orientações.
transAlign passa então as sequências traduzidas para ClustalW para alinhamento (de acordo com qualquer uma das matrizes de ponderação de BLOSUM, GONNET ou PAM) e traduz para trás as sequências de resíduos alinhadas resultantes para sequências de ADN alinhadas., ClustalW foi escolhido porque é talvez o mais conhecido e mais amplamente utilizado programa de alinhamento múltiplo. Ele também oferece a maior escolha de matrizes de transição de aminoácidos (BLOSUM, GONNET e PAM) e a capacidade de fazer alinhamentos de perfis (ver abaixo). No entanto, pequenas modificações ao código transAlign permitiriam o uso de qualquer programa de alinhamento múltiplo adequado que aceitasse dados de sequência proteica como entrada (por exemplo, DIALIGN2 com sua saída Clustal em particular)., Independentemente do programa de alinhamento utilizado, espera-se que o aumento da velocidade e precisão em comparação com o alinhamento das sequências como DNA ainda ocorreria dadas as muitas vantagens para alinhar as sequências de DNA codificadores de proteínas como aminoácidos (ver acima).
uma opção também é fornecida para excluir automaticamente quaisquer sequências pouco alinhadas, conforme determinado pelos alinhamentos iniciais feitos por ClustalW. Esta característica destina-se em grande parte a remover sequências problemáticas dos dutos de alinhamento, onde é difícil (manualmente) melhorar o alinhamento global depois., Para cada sequência, a média das suas pontuações de alinhamento emparelhado é comparada com a média entre todas as sequências restantes, de acordo com um ensaio T de duas amostras de uma só cauda, corrigido para comparações múltiplas. Como tal, o procedimento é mais eficaz na identificação de sequências problemáticas isoladas, que podem derivar da inclusão de uma potencial paralog ou simplesmente uma sequência mal identificada. As famílias de tais sequências (por exemplo, se o conjunto de dados contém numerosas cópias de cada parálogos de uma família de genes) são menos propensas a serem detectadas.,
porque ClustalW ignora aminoácidos ambíguos e Códices de paragem( não estando presentes nas matrizes de transição de aminoácidos), transAlign os traduz inicialmente como lacunas para permitir a tradução posterior. Este procedimento não é problemático, a menos que o resíduo ambíguo ou o codão de paragem seja adjacente a uma lacuna inferida pelo procedimento de alinhamento, onde pode ser colocado no início ou no fim da lacuna. No caso de resíduos ambíguos provenientes de codões incompletos, a transAlign determina o melhor dos dois estágios com base na concordância do(s) nucleótido (s) em falta com o intervalo., No entanto, todos estes casos devem ainda ser examinados e, se necessário, corrigidos numa base individual durante a inspecção manual que se segue a qualquer procedimento de alinhamento automatizado.
Obviamente, o uso de transAlign é restrita a codificação de sequências de DNA apenas e não deve ser utilizado por não-codificantes de DNA, seja por genes, tais como 18S rDNA (= MTRNR2; ); acompanhamento UTR, regulamentares, ou intrônicos regiões de genes; ou microsatellite sequências. O procedimento também é adversamente afetado por mudanças de estrutura (por exemplo, a partir de erros de sequenciação)., Por conseguinte, o transAlign emitirá um aviso mínimo para cada sequência que contenha mais do que um limiar especificado pelo utilizador de codões de paragem (excluindo o codão terminal) na orientação ideal. Este limiar pode ser um número absoluto de codões de paragem (por omissão) ou uma percentagem de codões de paragem na sequência restante após o primeiro codão de paragem ser encontrado., Embora este procedimento seja geralmente robusto, é menos provável detectar mudanças de estrutura que ocorrem perto de cada extremidade de uma dada sequência por causa da probabilidade reduzida de um codão de parada errôneo surgindo nas poucas residências restantes.
Três soluções globais para qualquer quadro mudou sequências são implementados em transAlign: 1) a exclusão, 2) alinhamento utilizar traduzido sequências independentemente (com os erros associados), ou 3) subsequente perfil de alinhamento de DNA para o alinhado conjunto de não-frame-mudou de sequências (padrão)., A última opção é a mais lenta das três, mas permite que todas as sequências sejam alinhadas de forma tão robusta quanto possível. Além disso, mesmo um alinhamento parcial do perfil será sempre mais rápido do que o alinhamento de todas as sequências como ADN (Figura 1), independentemente da velocidade real inerente ao alinhamento das sequências de aminoácidos mais curtas. No entanto, o desempenho vai cair rapidamente à medida que a proporção de seqüências de frame-shifted no conjunto de dados aumenta., Por exemplo, assumindo uma aceleração de 9x para alinhar aminoácidos em comparação com o DNA (que, como mencionado, é o valor esperado com base apenas em considerações de comprimento), a economia de tempo global será apenas de cerca de 2x se as sequências de deslocamento de quadros compreendem 25% de todas as sequências (ver Figura 1). Por último, para facilitar a inspecção manual do conjunto de dados, a transAlign tentará também inferir localizações putativas para os indéis de mudança de quadros, com base numa comparação de lacunas entre as sequências alinhadas com aminoácidos e as sequências alinhadas com perfis de ADN.,
Como mencionado acima, transAlign resultado será alinhado sequências de DNA em qualquer ou todos fasta, nexus, (clássico ou estendida) PHYLIP, ou Se-Al formatos. Por padrão, as sequências são saídas em ordem alfabética de acordo com o seu nome., No entanto, também é possível obtê-los para corresponder a sua ordem no arquivo de entrada original ou como eles foram saída do alinhamento ClustalW. Esta última opção é particularmente útil na identificação de” famílias ” de sequências similares ou de sequências alinhadas com o perfil para facilitar qualquer correção manual do alinhamento global.
transAlign é escrito em Perl e é de código aberto. Ele será executado em qualquer sistema operacional com um interpretador Perl e é conduzido de linha de comando. No entanto, ele também possui um modo interativo de usuário onde o Usuário é solicitado a definir todas as variáveis relevantes., Ele requer que uma versão remotamente chamável do ClustalW esteja presente no caminho global ou em um usuário especificado. Mais uma vez, no entanto, pequenas modificações ao código permitiria o uso de qualquer programa de alinhamento múltiplo adequado.