突然ですがRNA-seqのリードカウントデータによる発現解析についての記事です。
今回はサンプルのグループが3つ以上のときの解析方法について、少し考えたことを述べていこうと思います。
3つ以上を一般的に考えると頭がこんがらがるので今回は3つの場合と限定しておきます。
このときの各Feature(遺伝子やIsoform、extonとか)の発現の種類について考えていきます。
2つのグループのときは発現変動しているかいないか(発現変動遺伝子(DEG) or nonDEG)で分けられ、さらにDEGについてはその大小関係から、グループ1(G1)で高発現かグループ2(G2)で高発現かの2種類に分けられます。
ということでDEGを大小関係で分けるところまで考えてもたかだか3パターンで済みます。
では3つのグループの比較ではどうなるでしょうか。言葉で説明するのが面倒なので図で示してみます。
灰色の線より上にある1段めはDEGであるかどうか、DEGならどのグループ間で発現変動していないか、どこでは発現変動しているかを考えたときのパターンです。計5つが考えられます。
さらに、それぞれのパターンで発現変動の大小関係も考慮すると灰色の線以下のパターンが考えられることになります。
発現変動解析では発現変動遺伝子を得ることができればあとの大小関係はそれぞれのグループの平均を比べればわかります。したがって、上図の灰色線より上5つのパターンについてそれぞれのFeatureがどのパターンに属するかを考えるのが解析のメインで難しいところになってくるのかなと思います。
ちなみに、4グループの場合は発現変動の有無を考えるだけで15種類のパターンが考えられます。
次回はこの発現パターンをもとに3つのグループのRNA-seqリードカウントデータの疑似データを生成してみたいと思います。