RNA-seqで3つ以上のグループの比較

突然ですがRNA-seqのリードカウントデータによる発現解析についての記事です。

今回はサンプルのグループが３つ以上のときの解析方法について、少し考えたことを述べていこうと思います。

３つ以上を一般的に考えると頭がこんがらがるので今回は３つの場合と限定しておきます。

このときの各Feature（遺伝子やIsoform、extonとか）の発現の種類について考えていきます。

２つのグループのときは発現変動しているかいないか（発現変動遺伝子(DEG) or nonDEG）で分けられ、さらにDEGについてはその大小関係から、グループ１(G1)で高発現かグループ２(G2)で高発現かの２種類に分けられます。

ということでDEGを大小関係で分けるところまで考えてもたかだか３パターンで済みます。

では３つのグループの比較ではどうなるでしょうか。言葉で説明するのが面倒なので図で示してみます。

灰色の線より上にある１段めはDEGであるかどうか、DEGならどのグループ間で発現変動していないか、どこでは発現変動しているかを考えたときのパターンです。計５つが考えられます。

さらに、それぞれのパターンで発現変動の大小関係も考慮すると灰色の線以下のパターンが考えられることになります。

発現変動解析では発現変動遺伝子を得ることができればあとの大小関係はそれぞれのグループの平均を比べればわかります。したがって、上図の灰色線より上５つのパターンについてそれぞれのFeatureがどのパターンに属するかを考えるのが解析のメインで難しいところになってくるのかなと思います。

ちなみに、４グループの場合は発現変動の有無を考えるだけで15種類のパターンが考えられます。

次回はこの発現パターンをもとに３つのグループのRNA-seqリードカウントデータの疑似データを生成してみたいと思います。