EMBOSSとは
EMBOSSとは"The European Molecular Biology Open Software Suite"の頭文字を取ったものであり、 分子生物学系の解析を行うのに便利なツール群です。詳細はこちらのリンク http://emboss.sourceforge.net/ で確認できます。
インストールは例えば apt
が動くような環境(Ubuntu、WSLなど)では以下のようにして簡単にインストールできます。
sudo apt install emboss
また、Bioconda系の環境構築ツールを利用している場合は以下のようにしてもインストールできるようです。
conda install emboss
Macは brew
でインストールできるかもしれません。
primersearch
先程ツール「群」と紹介したようにEMBOSSにはいくつかのツールがまとまって含まれています。その中でも
今回は primersearch
というツールについて少し使ってみたのでその記録をここに残したいと思います。
primersearch
という名前からいかにもプライマーを探してくれそうな感じがしますが、違います。
このツールはPCRの鋳型となる配列とプライマー配列を入力として、指定したプライマーが鋳型のどの部分を
増幅するかということを教えてくれます。 http://emboss.sourceforge.net/apps/cvs/emboss/apps/primersearch.html に使い方の詳細があります。
では実際に使ってみます。コマンドの書式は以下の通りです。
primersearch template.fa primers.txt 0 out
1つ目の引数にはテンプレートとなる配列のFASTAファイルを指定します。
2つ目の引数にはプライマー配列が入ったファイルを指定します。このファイルの書式は1行に プライマー名、フォワード配列、リバース配列が空白文字区切りで記載されている感じです。 以下に例を示します。
PRIMER_0 ACAAGAGGTTCGACGAATGCT GCCTCCTAAGTCGTCCTTCG PRIMER_1 ACAAGAGGTTCGACGAATGCT CCAAGGGAGAGCTAACAGCC PRIMER_2 ACAAGAGGTTCGACGAATGCT GGAGAGCTAACAGCCATGCA PRIMER_3 TGGATCACAAGAGGTTCGACG GCCTCCTAAGTCGTCCTTCG PRIMER_4 TGGATCACAAGAGGTTCGACG GGAGAGCTAACAGCCATGCA
3つ目の引数には許容するミスマッチの割合を百分率で指定します。
4つ目の引数には出力ファイルの名前を指定します。
出力例
Primer name PRIMER_0 Amplimer 1 Sequence: chr1 ACAAGAGGTTCGACGAATGCT hits forward strand at 10267 with 0 mismatches GCCTCCTAAGTCGTCCTTCG hits reverse strand at [35372730] with 0 mismatches Amplimer length: 104 bp Primer name PRIMER_1 Amplimer 1 Sequence: chr1 ACAAGAGGTTCGACGAATGCT hits forward strand at 10267 with 0 mismatches CCAAGGGAGAGCTAACAGCC hits reverse strand at [35372687] with 0 mismatches Amplimer length: 147 bp Primer name PRIMER_2 Amplimer 1 Sequence: chr1 ACAAGAGGTTCGACGAATGCT hits forward strand at 10267 with 0 mismatches GGAGAGCTAACAGCCATGCA hits reverse strand at [35372692] with 0 mismatches Amplimer length: 142 bp Primer name PRIMER_3 Amplimer 1 Sequence: chr1 TGGATCACAAGAGGTTCGACG hits forward strand at 10261 with 0 mismatches GCCTCCTAAGTCGTCCTTCG hits reverse strand at [35372730] with 0 mismatches Amplimer length: 110 bp Primer name PRIMER_4 Amplimer 1 Sequence: chr1 TGGATCACAAGAGGTTCGACG hits forward strand at 10261 with 0 mismatches GGAGAGCTAACAGCCATGCA hits reverse strand at [35372692] with 0 mismatches Amplimer length: 148 bp
すべてchr1上にプライマーを設計したので妥当な結果が得られていると思います。すべてのプライマーセットで 特異的な配列を増幅できることがわかります。(テンプレート配列として指定したファイルに含まれる配列の範囲で) また、ミスマッチを多少許容した場合も確認してみるとより厳しく特異性を確認できるかもしれません。
もう一つ便利な点として、増幅断片の配列長を示してくれるという利点があります。PCRの結果を見ているとき、 増幅断片の長さを忘れてしまって、どこにもメモしてなかったときでもさっと調べることができます。
いたって単純な機能しか実装していませんが、意外と便利かもしれないと思いました。