transAlign:タンパク質コーディングDNA配列のマルチアライメントを容易にするためのアミノ酸の使用

0 Comments

transAlignは、fasta、nexus、classicまたは”extended”PHYLIP、およびSe-Alのいずれかの形式でDNA配列を自動的に読み取ることができます。 また、これらの同じ形式のいずれかで最終的な配置を記述することもできます。 (追加の形式との変換は、hmmerパッケージの一部であるreadSeqやsreformatなどの他のプログラムを介して行うことができます。,)DNA配列のいくつかの基本的なフィルタリングも実装されており、ギャップ(すべてのギャップまたは配列に隣接するもののみ)のストリッピングおよびユーザー定義のあいまいなヌクレオチド(すなわち、Ns)の割合を超える配列を削除することを含む。DNA配列の初期処理後、transalignは、NCBIによってリストされた遺伝コードのいずれかに従って、各配列に対する最適な翻訳を決定する。 また、Se-Al形式のデータでは、配列ごとに異なる遺伝コードが指定されていることも可能です。, 可能な限り、transAlignはあいまいなヌクレオチドを含むコドンを翻訳します(ただし明示的なギャップはありません)。 最適な翻訳は、末端コドンを除いた最も少ない停止コドンをもたらすことであると保持される。 デフォルトでは、入力方向の三つの読み取りフレームのみが調べられますが、補完方向、逆補完方向、逆補完方向も調べることができます。, 1)入力としての向き、その向きの第二および第三の読み取りフレーム、そして2)相補的、3)逆、および4)逆相補的な向きのそれぞれの読み取りフレームの順に、トランスアラインは、元のDNA配列を少なくとも摂動させるものを優先します。次いで、transalignは、翻訳された配列を整列のために(BLOSUM、GONNETまたはPAMタンパク質重み付け行列のいずれかに従って)Clustalwに渡し、得られた整列した残基配列を整列DNA配列, 渡り選ばれたので恐らく最もよく知られているとも広く使われている複数のアライメントプログラム。 また、アミノ酸遷移行列(BLOSUM、GONNET、およびPAM)の最大の選択肢と、プロファイルアライメントを行う能力(下記参照)を提供します。 しかし、transAlignコードをわずかに変更すると、タンパク質配列データを入力として受け入れる適切なマルチアライメントプログラムを使用できるようになります(例えば、DIALIGN2は特にClustalのような出力を持つ)。, 使用されるアライメントプログラムにかかわらず、タンパク質コードDNA配列をアミノ酸として整列させるための多くの利点を考えると、DNAとして配列を整列させることに比べて速度と精度の両方が向上することが予想される(上記参照)。

ClustalWによって実行される最初のペアワイズ整列によって決定されるように、整列が不十分なシーケンスを自動的に削除するオプションも提供されます。

この機能は、アライメントパイプラインから問題のあるシーケンスを削除することを主な目的としています。, 各シーケンスについて、そのペアワイズアライメントスコアの平均は、多重比較のために補正された片側二サンプルt検定に従って、残りのすべてのシーケンス間の平均と比較される。 したがって、この手順は、潜在的なパラログまたは単に誤認された配列の包含に由来する可能性のある単離された問題のある配列を同定するのに最も有効である。 そのような配列のファミリー(例えば、データセットが遺伝子ファミリーからのパラログのそれぞれの多数のコピーを含む場合)は、検出されにくい。,

ClustalWはあいまいなアミノ酸を無視し、コドンを停止するため(どちらもアミノ酸遷移行列に存在しない)、transAlignは最初にそれらをギャップとして変換して この手順は、あいまいな残基または停止コドンがアライメント手順によって推測されるギャップに隣接していない限り、問題ではなく、ギャップの開始または終了のいずれかに配置することができる。 不完全なコドンから生じるあいまいな残基に対して,transalignはギャップとの欠落したヌクレオチドの一致に基づいて二つの配置のより最適を決定する。, しかしながら、そのようなすべての事例は依然として検査され、必要に応じて、自動整列手順に従う手動検査の間に個別に修正されるべきである。

明らかに、トランスアラインの使用はDNA配列のみをコードすることに制限されており、18S rDNA(=MTRNR2;)などの遺伝子、UTR、調節領域、または遺伝子のイントロン領域、またはマイクロサテライト配列のいずれについても、非コードDNAには使用すべきではない。 の手続にも影響を受けによるフレームシフト(例えば、配列決定の誤差)., したがって、transAlignは、ユーザーが指定した停止コドンのしきい値以上(末端コドンを除く)を最適な方向に含む各シーケンスに対して、最小限の警告を発行します。 この閾値は、停止コドンの絶対数(デフォルト)または最初の停止コドンに遭遇した後の残りの配列における停止コドンの割合のいずれかであり得る。, この手順は一般的に堅牢であるが、少数の残りの存在に生じる誤った停止コドンの確率が減少するため、与えられた配列のいずれかの終わり近くで起こるフレームシフトを検出する可能性は低い。

任意のフレームシフト配列の三つのグローバルソリューションは、トランスアラインで実装されています:1)削除、2)翻訳された配列を使用してアライメント(関連するエラーを伴う)、または3)非フレームシフト配列の整列セットへのDNAとしての後続のプロファイルアライメント(デフォルト)。, 後者のオプションは三つの中で最も遅いですが、すべてのシーケンスをできるだけ堅牢に整列させることができます。 さらに、部分的なプロファイルアライメントであっても、短いアミノ酸配列を整列させることに固有の実際の高速化にかかわらず、すべての配列をDNAとして整列させるよりも常に高速です(図1)。 しかし、性能を落とばとしての割合のフレームシフト配列のデータセットが増加します。, たとえば、DNAと比較してアミノ酸を整列させるための9倍の高速化を仮定すると(前述のように、長さの考慮事項のみに基づいて期待される値である)、フレームシフト配列がすべての配列の25%を占める場合、全体的な時間節約は約2倍になります(図1参照)。 最後に、データセットの手動検査を容易にするために、transAlignはまた、アミノ酸整列とDNAプロファイル整列配列間のギャップの比較に基づいて、フレームシフトインデルの推定位置を推測しようとします。,

図1

翻訳されたアライメントを実行することによる理論上の速度の向上。 図は、アミノ酸翻訳を介してデータセット内のタンパク質コードDNA配列の任意の割合を、その後それらにプロファイルアライメントされた残りのDNA配列, 図のような曲線は、翻訳されたアライメントがそれぞれのDNAアライメントよりも平均して9倍速いという仮定に基づいており、他の値は異なるスケールのほぼ同一の曲線を生成する。

上記のように、transAlignは、整列したDNA配列をfasta、nexus、(classicまたはextended)PHYLIP、またはSe-Al形式のいずれかまたはすべてで出力します。 デフォルトでは、シーケンスは名前に従ってアルファベット順に出力されます。, ただし、元の入力ファイルの順序に合わせて出力することも、ClustalWアライメントから出力された順序に合わせて出力することもできます。 後者の選択肢は、類似配列の”ファミリー”またはグローバルアライメントの任意の手動補正を容易にするためにプロファイルアライメントされた配列を

transAlignはPerlで書かれており、オープンソースです。 で運営システムのPerlインタプリタがコマンドラインを導きます。 ただし、関連するすべての変数を設定するようにユーザーが求められるユーザー対話モードも備えています。, リモートで呼び出し可能なバージョンのClustalWがグローバルパスまたはユーザー指定のパスに存在する必要があります。 しかし、コードをわずかに変更すると、適切な多重整列プログラムを使用できるようになります。


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です