transAlign:를 사용하여 아미노산을 촉진하는 여러 정렬 단백질의 코딩 DNA
transAlign 할 수 있는 자동으로 읽 DNA 시퀀스에서 네 형식:fasta,넥서스,클래식이나”확대”이 책은 수업에서’,그리고 Se-Al. 또한 이러한 동일한 형식 중 하나로 최종 정렬을 작성할 수 있습니다. (추가 형식으로의 변환은 HMMER 패키지의 일부인 readSeq 또는 sreformat 과 같은 다른 프로그램을 통해 수행 할 수 있습니다.,)몇 가지 기본적인 필터링의 DNA 시퀀스는 또한 포함하여 구현합 스트립의 격차(중 하나는 모든 차이만 측면에서는 시퀀스)및 삭제를 시퀀스와 이상을 사용자 정의 비율의 모호한 뉴클레오티드(예:Ns).
DNA 서열의 초기 처리 후,transAlign 은 NCBI 에 의해 나열된 유전자 코드 중 하나에 따라 각 서열에 대한 최적의 번역을 결정할 것이다. Se-Al 형식의 데이터가 각 서열에 대해 지정된 다른 유전자 코드를 갖는 것도 가능합니다., 가능한 한 transAlign 은 모호한 뉴클레오타이드를 포함하는 코돈을 변환합니다(그러나 명시적인 갭은 아닙니다). 최적의 번역은 터미널 코돈을 제외한 가장 적은 스톱 코돈을 산출하는 것으로 유지된다. 기본적으로 입력 방향에 대한 3 개의 판독 프레임만 검사되지만,보완,반전 및 역 보완 방향도 검사할 수 있습니다., 에 대한 동등하게 최적의 방향 transAlign 호의 하나 perturbing 원 DNA sequence 도:기 위해,1)이 방향으로의 입력에 의해 다음,두번째와 세번째는 독서 프레임에서는 방향,그리고 다음의 각각을 읽는 프레임 에서 각각 2)보완,3)역방향,그리고 4)reverse-보완적인 방향입니다.
transAlign 그런 다음 전달의 번역된 시퀀스를 ClustalW 정렬(에 따라 모든 BLOSUM,GONNET 또는 PAM 단백질 가중치 매트릭스)및 후 변환의 결과로 정렬된 잔류물을 순으로 정렬 DNA sequences., ClustalW 는 아마도 가장 잘 알려져 있고 가장 널리 사용되는 다중 정렬 프로그램이기 때문에 선택되었습니다. 그것은 또한 훌륭한 선택의 아미노-전환산 행렬(BLOSUM,GONNET 및 PAM)수 있는 능력을 profile 선형을(아래 참조). 그러나,약간의 수정을 transAlign 코드를 사용할 수 있 적합한 여러 맞춤 프로그램을 허용하는 단백질 서열 데이터 입력으로(예를 들어,DIALIGN2 로 Clustal 같은 출력에서는 특정)., 에 관계 없이 정렬이 사용되는 프로그램,그것은 예상되는 증가 속도에 비해 정렬 순서로 DNA 여전히 발생할어 많은 이점이 맞추기 위해 단백질 코딩 DNA 시퀀스로 아미노산(위 참조).
ClustalW 에 의해 수행 된 초기 쌍 정렬에 의해 결정된 잘못 정렬 된 시퀀스를 자동으로 삭제하는 옵션도 제공됩니다. 이 기능은 의도는 크게 제거하는 문제적인 시퀀스에서 선형 파이프라인,는 것은 어려운(수동)을 개선하는 글로벌 맞춤습니다., 에 대한 각각의 순서,평균의 페어 정렬 점수 비교하는 사이에 남아있는 모든 시퀀스에 따라 한쪽 two-sample t-test 수정을 위한 여러 비교할 수 있습니다. 으로 이러한 절차는 가장 효과적인 식별 절연 문제가 있는 시퀀스할 수 있는 파생에서 포함되는 잠재적인 이전에 작성하거나 단순히 잘못 시퀀스입니다. 가족 같은 시퀀스(예를 들어,데이터 집합을 포함한 수많은 사본 각각의 paralogs 에서는 유전자 가족)될 가능성이 적은 검출합니다.,
기 때문에 ClustalW 무시하 모호한 아미노산과 중지 codons(도 존재하에서 아미노-전환산 행렬),transAlign 환으로 처음에 간격을 허가 다시 번역. 이 절차가 문제가지 않으면의 모호한 잔류물 또는 중지 codon 한 잔의 술과 함께 여유를 간격을 유추에 의해 정렬 절차,그것은 배치 될 수 있습 중 하나에서 시작 또는 끝의 차이입니다. 모호한 잔류물에서 발생하는 불완전한 codons,transAlign 결정한 더 많은 최적의 두 개의 게재위치를 기반으로 일치 누락된 뉴클레오티드(s)습니다., 그러나,이러한 모든 인스턴스는 여전히 조사하고,필요한 경우,수정에 대해 개별적으로 중 매뉴얼 검사는 다음과 같이 모든 자동화된 맞춤 절차입니다.
명의 사용,transAlign 한 코딩 DNA 시퀀스가 사용되지 않습 non-코딩 DNA,는지에 대한 유전자와 같은 18S rDNA(=MTRNR2;);측면에 있고,규정,또는 intronic 지역의 유전자;또는 microsatellite 습니다. 절차는 또한 프레임 시프트(예:시퀀싱 오류)에 의해 악영향을 받는다., 따라서,transAlign 이 최소한 문제에 대한 경고 각각의 순서를 포함하는보다 더 많은 사용자가 지정된 임계값의 중지 codons(제외항 터미 codon)에 최적의 방향입니다. 이 임계값을 수 있는 절호의 중지 codons(기본값)또는 비율의 중지 codons 에서 남은 시퀀스의 첫 번째 정지 후 codon 이 발생했습니다., 이 절차는 일반적으로 견고하고,가능성이 적을 감지하는 프레임의 변화로 발생하는 근처의 끝 주어진 시퀀스 때문에 감소한의 확률 잘못된 정지 codon 에서 발생하는 몇 가지 남아 있습니다.
세 글로벌 솔루션을 위한 모든 프레임-이동 시퀀스에서 구현되 transAlign:1)삭제 2)정렬이 사용하여 번역된 순서와 관계없이(과 관련된 오류 수),또는 3)후속 프로파일 정렬 DNA 를 정렬의 집합이 아닌 프레임-이동 시퀀스(기본값)., 후자의 옵션은 세 가지 중 가장 느리지 만 모든 시퀀스를 가능한 한 견고하게 정렬 할 수 있습니다. 또한,심지어 일부 프로필 정렬은 항상보다 빠르게 맞추는 모든 시퀀스로 DNA(그림 1)관계없이 실제 고유의 속도 향상을 맞추는 짧은 아미노산 시퀀스입니다. 그러나 데이터 세트에서 프레임 이동 시퀀스의 비율이 증가함에 따라 성능이 빠르게 떨어집니다., 예를 들어,가정의 속도 향상 9x 맞추기 위해 아미노산을 비교하는 DNA(는,앞서 언급했듯이 값을 기준으로 예상만에 고려),전반적으로 시간이 절약됩 약 2 배의 경우 프레임-이동 시퀀스를 포함 25%의 모든 시퀀스(그림 1 참조). 마지막으로 용이하게하기 위해,매뉴얼의 검사 데이터 집합,transAlign 또한 시추 상의 위치에 대한 프레임-이동 삽입이나 삭제 비교를 기반으로 사이의 간격의 아미노산이 정렬되고 DNA 프로필에 맞춰집니다.,
위에서 언급한 바와 같이,transAlign 이 출력을 정렬 DNA 시퀀스에서 어떤 또는 모든 fasta,넥서스,(클래식 또는 확장)이 책은 수업에서’거나,Se-알 형식입니다. 기본적으로 시퀀스는 이름에 따라 알파벳 순서로 출력됩니다., 그러나 원래 입력 파일에서 자신의 순서에 맞게 출력하거나 ClustalW 정렬에서 출력 한 것처럼 출력 할 수도 있습니다. 후자 옵션은 특히 유용한 확인하”가족”의 유사한 순서 또는 그 순서는 프로파일 정렬을 용이하게 설명서 보정의 세계 정렬.
transAlign 은 Perl 로 작성되었으며 오픈 소스입니다. 그것은 펄 인터프리터와 모든 운영 체제에서 실행되며 명령 줄 구동된다. 그러나 사용자가 모든 관련 변수를 설정하라는 메시지가 표시되는 사용자 대화식 모드도 갖추고 있습니다., 원격 호출 가능한 버전의 ClustalW 가 전역 경로 또는 사용자가 지정한 경로에 있어야 합니다. 그러나 코드를 약간 수정하면 적절한 다중 정렬 프로그램을 사용할 수 있습니다.피>