EMBOSSのprimersearchというコマンドについて

EMBOSSとは

EMBOSSとは"The European Molecular Biology Open Software Suite"の頭文字を取ったものであり、 分子生物学系の解析を行うのに便利なツール群です。詳細はこちらのリンク http://emboss.sourceforge.net/ で確認できます。

インストールは例えば apt が動くような環境(Ubuntu、WSLなど)では以下のようにして簡単にインストールできます。

sudo apt install emboss

また、Bioconda系の環境構築ツールを利用している場合は以下のようにしてもインストールできるようです。

conda install emboss

Macbrew でインストールできるかもしれません。

primersearch

先程ツール「群」と紹介したようにEMBOSSにはいくつかのツールがまとまって含まれています。その中でも 今回は primersearch というツールについて少し使ってみたのでその記録をここに残したいと思います。

primersearch という名前からいかにもプライマーを探してくれそうな感じがしますが、違います。 このツールはPCRの鋳型となる配列とプライマー配列を入力として、指定したプライマーが鋳型のどの部分を 増幅するかということを教えてくれます。 http://emboss.sourceforge.net/apps/cvs/emboss/apps/primersearch.html に使い方の詳細があります。

では実際に使ってみます。コマンドの書式は以下の通りです。

primersearch template.fa primers.txt 0 out

1つ目の引数にはテンプレートとなる配列のFASTAファイルを指定します。

2つ目の引数にはプライマー配列が入ったファイルを指定します。このファイルの書式は1行に プライマー名、フォワード配列、リバース配列が空白文字区切りで記載されている感じです。 以下に例を示します。

PRIMER_0 ACAAGAGGTTCGACGAATGCT GCCTCCTAAGTCGTCCTTCG
PRIMER_1 ACAAGAGGTTCGACGAATGCT CCAAGGGAGAGCTAACAGCC
PRIMER_2 ACAAGAGGTTCGACGAATGCT GGAGAGCTAACAGCCATGCA
PRIMER_3 TGGATCACAAGAGGTTCGACG GCCTCCTAAGTCGTCCTTCG
PRIMER_4 TGGATCACAAGAGGTTCGACG GGAGAGCTAACAGCCATGCA

3つ目の引数には許容するミスマッチの割合を百分率で指定します。

4つ目の引数には出力ファイルの名前を指定します。

出力例

Primer name PRIMER_0
Amplimer 1
    Sequence: chr1  
    
    ACAAGAGGTTCGACGAATGCT hits forward strand at 10267 with 0 mismatches
    GCCTCCTAAGTCGTCCTTCG hits reverse strand at [35372730] with 0 mismatches
    Amplimer length: 104 bp

Primer name PRIMER_1
Amplimer 1
    Sequence: chr1  
    
    ACAAGAGGTTCGACGAATGCT hits forward strand at 10267 with 0 mismatches
    CCAAGGGAGAGCTAACAGCC hits reverse strand at [35372687] with 0 mismatches
    Amplimer length: 147 bp

Primer name PRIMER_2
Amplimer 1
    Sequence: chr1  
    
    ACAAGAGGTTCGACGAATGCT hits forward strand at 10267 with 0 mismatches
    GGAGAGCTAACAGCCATGCA hits reverse strand at [35372692] with 0 mismatches
    Amplimer length: 142 bp

Primer name PRIMER_3
Amplimer 1
    Sequence: chr1  
    
    TGGATCACAAGAGGTTCGACG hits forward strand at 10261 with 0 mismatches
    GCCTCCTAAGTCGTCCTTCG hits reverse strand at [35372730] with 0 mismatches
    Amplimer length: 110 bp

Primer name PRIMER_4
Amplimer 1
    Sequence: chr1  
    
    TGGATCACAAGAGGTTCGACG hits forward strand at 10261 with 0 mismatches
    GGAGAGCTAACAGCCATGCA hits reverse strand at [35372692] with 0 mismatches
    Amplimer length: 148 bp

すべてchr1上にプライマーを設計したので妥当な結果が得られていると思います。すべてのプライマーセットで 特異的な配列を増幅できることがわかります。(テンプレート配列として指定したファイルに含まれる配列の範囲で) また、ミスマッチを多少許容した場合も確認してみるとより厳しく特異性を確認できるかもしれません。

もう一つ便利な点として、増幅断片の配列長を示してくれるという利点があります。PCRの結果を見ているとき、 増幅断片の長さを忘れてしまって、どこにもメモしてなかったときでもさっと調べることができます。

いたって単純な機能しか実装していませんが、意外と便利かもしれないと思いました。