Genome Graphを参照配列とする時代が来たみたいです

Reference Bias

現在広く普及しているゲノム配列解析では、実験対象の種のゲノム配列を代表する参照配列(リファレンス)を用意し、それに対しシーケンスされたリードをマッピングするという手順を踏みます。

しかし、この方法にはReference Biasという現象が生じる可能性があります。Reference Bias とは簡単に言えば、対立アレル型を含むリードがマッピングされにくくなるといったようなことだと思います。

対立アレル型の変異を含むということはリファレンスとは異なる塩基配列を持っているということになるのでアラインメントスコアは減少し、マッピングされにくくなるのはイメージできるかと思います。特にInDelのような変異ではこの傾向が顕著に見られる可能性があります。

Reference Biasを説明した図として、こちらの論文 https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02160-7 のFig. 1は比較的わかりやすいかと思います。

このBiasを回避する方法として一つはマッピングに頼らずde novo アセンブリを行うことです。そしてその他の方法としては、グラフを用いた変異構造の表現を用いるという方法が挙げられます。

今回はこの方法について紹介していきたいと思います。ただこの分野の専門というわけではないので、説明の端々に厳密のかけたまたは間違った表現が含まれているかもしれません。ご了承ください。

Pangenome と Genome Graph

まずPangenomeという言葉ついて、これは複数のゲノム配列の集合といったイメージだと思います。これまではある一つの種において、平均的な1つのゲノム配列をリファレンスとしてきましたが、Pangenomeの考え方では複数のゲノム配列がリファレンスになります。

最近ではゲノム配列の決定が容易にできるようになり、1つの種の中でも複数のゲノム配列が得られるようになってきた(ex. the 1000 Genomes Project)この時代だからこその発想だと思います。

Pangenomeをリファレンスとする場合、もちろんPangenomeに含まれるゲノム配列分の情報を保持していても良いのですが、これらの配列情報には相同な配列も含まれていて冗長な表現となっていると思います。

そこで、それらの重複を除きうまくPangenome内の構造変異等の情報を保持しつつ冗長性を削った表現方法がGenome Graphだと思います。

Genome Graphではゲノム配列情報をグラフの形で保持します。ここで、グラフとはエッジとノードで表される構造であり、点と点を線で結んだような図のようなイメージです。

例えばPangenome内で共通する部分配列は一本のつながりで表され、多型が存在する場合は分岐することでそれを表現したりします。

ゲノム構造をグラフで表現する上で様々な工夫がなされているようですが、今回はここまでにしたいと思います。

参考文献

  • Martiniano, R., Garrison, E., Jones, E.R. et al. Removing reference bias and improving indel calling in ancient DNA data analysis by mapping to a sequence variation graph. Genome Biol 21, 250 (2020). https://doi.org/10.1186/s13059-020-02160-7
  • Paten B, Novak AM, Eizenga JM, Garrison E. Genome graphs and the evolution of genome inference. Genome Res. 2017; 27(5):665–76.