アプリURL https://sabe.shinyapps.io/clfbg/ ということで、改めてアプリの詳しい使い方をここで示したいと思います。 アプリサイトにアクセスするとまず最初に以下のような画面が現れます。 最初にすることはインプットファイルのロードです。上図で赤く囲…
Rでgenomic dataをプロットする場合いくつかのパッケージがあります。例えば RIdeogram IdeoViz などです。 その中の一つに karyoploteR (Bernat Gel & Eduard Serra. (2017). karyoploteR: an R/Bioconductor package to plot customizable genomes display…
RでVCFファイルを操作する2ということで2ヶ月前の記事に引き続き VariantAnnotation でのVCFの扱い方について説明していこうと思います。 今回はデータのプロットまでしてみようと思います。 データインポート 前回と同様、パッケージに同梱されているVCFフ…
Gvizとは Gvizはゲノムブラウザーで行うような可視化をRのプロットシステムを用いて実行することを可能にしてくれるパッケージです。 GvizはTrackという単位でプロットを行います。Trackにはいくつかの種類がありそれぞれに関数があります。これらの関数を用…
競プロとは 競プロとは競技プログラミングの略称で、出題される問題に対し、プログラミングによって解決をし、その速さ、正確さを競うものです。 日本で競プロのコンテストを開催しているサイトといえばAtCoder(https://atcoder.jp/)が代表的だと思います。 …
最近、最尤法について考えることがあったのでこれについて少し書きます。特に資料を当たって書いているわけではないのでこれから書く内容は私の現時点での妄想です。。。 そもそも最尤推定の前に 最尤推定は簡単に言えばある確率モデルのパラメータを求める…
プライマーの様な短い配列をBLASTにかけるときはデフォルトのコマンドラインのパラメータでは ヒットしないことがよくあります。 そこで今日は短い配列のBLAST検索するときのコマンドラインの設定を備忘録的にメモしておきます。 blastn -task blastn-short …
手元にあるパブリックになっていないFASTAファイルからBLAST検索をかけたいとき、私はローカルに インストールしてあるBLAST+を使用して検索をかけます。 BLASTのデータベースは makeblastdb コマンドで作ることができます。このデータベースは検索毎 に作る…
EMBOSSとは EMBOSSとは"The European Molecular Biology Open Software Suite"の頭文字を取ったものであり、 分子生物学系の解析を行うのに便利なツール群です。詳細はこちらのリンク http://emboss.sourceforge.net/ で確認できます。 インストールは例えば…
突然ですが、実験プロトコルに書いてある反応溶液の組成などは基本的に1サンプル分だったりして、そこから自分が必要な分を計算したりします。そういった作業が面倒くさい(アプリがありそうですが)のでなんとなくR markdownとShinyを使ってインタラクティ…
発現変動解析では多くの場合発現変動している遺伝子、いわゆるDEGを検出するのが目的です。 ですので、帰無仮説はA群の平均発現量=B群の平均発現量という帰無仮説を立てて統計検定を行います。ところで、研究の目的によっては発現変動「していない」遺伝子…
RでVCFファイルを扱う場合、CRANにある vcfR または Bioconductor の VariantAnnotation というパッケージの2つの選択肢があると思います。今回は Bioconductor の VariantAnnotation を触ってみたのでその記録を残しておきたいと思います。 Bioconductor …
shinyとは、統計言語RでインタラクティブなWebアプリケーションを開発するためのパッケージです。 Shinyアプリを実際に稼働させるとなるといろいろな方法があります。実際にどんな方法があるかはhttps://shiny.rstudio.com/articles/#deploymentを参考にする…
KASP (https://en.wikipedia.org/wiki/Kompetitive_allele_specific_PCR) のような2種類の蛍光強度の強さから遺伝子型を同定する実験があります。人間が一つ一つデータを見て各サンプルの遺伝子型を決定するのは面倒なので、今回はこの実験で得られる2種類の…
RNA-seqで多群間解析する(前置き) RNA-seqのカウントデータから、発現変動解析で多群間比較を行う場合、全ての組み合わせに対してペアワイズに検定したり、グループをいったんプールして比較する(見たことありませんが)といった工夫が考えられます。ただ…
edgeRでの多群間発現変動解析について、少し実験してみました。 今回はこのような仮想的なデータを用意しました。G1、G2、G3という3つのグループを含むという設定です。今回用いるデータはかなりノイズが少ない現実のデータとは少し遠いシミュレーションデ…
plot.new() plot.window(c(-10, 10), c(-10, 10), asp = 1) polygon(c(-3, -4, 4, 3, -3), c(-8, 1, 1, -8, -8), col = "#ead7a4", border = F) polygon(c(-3, -3 - 10 / 9, 3 + 10 / 9, 3, -3), c(-8, 2, 2, -8, -8), lwd = 2) segments(c(0.8, 1.5), c(-7.…
3グループデータのモデル化 前回に続きましてRNA-seqの記事になります。まずは、3グループの場合のそれぞれのサンプル、遺伝子のカウントデータの平均パラメータを数式で簡単にモデル化していきたいと思います。こちらのページ(https://bi.biopapyrus.jp/r…
突然ですがRNA-seqのリードカウントデータによる発現解析についての記事です。今回はサンプルのグループが3つ以上のときの解析方法について、少し考えたことを述べていこうと思います。3つ以上を一般的に考えると頭がこんがらがるので今回は3つの場合と限…
生物系の研究室ではある系統の交雑後代の遺伝子型を複数のマーカーについて調べるという実験をすることがよく?あります。こういった実験ではエクセルなどの表に結果を記録していきます。行にサンプル、列にマーカーが並んでいて、各セルにそのマーカーの示…