2020-01-01から1年間の記事一覧

primer3 コマンドライン版を使ってみた

プライマーデザインツールといえば、言わずとしれた primer3 でしょう。 私もよくお世話になっているツールですが、これまでは Web版 を 主に利用してきました。 しかし、一度に大量のプライマーを作成するとなるといちいちサイトでクリックをしているのはと…

bedtoolsについて思ったこと

最近 bedtools を使ってて躓いたところがありました。 bedtools maskfasta を使っていたのですが全くマスクされた配列が出力されず、 入力がそのまま出力されているように見えていました。 特にエラーも吐かず平然とインプットファイルと同じアウトプットを…

snakemakeでバリアントコールパイプライン構築

今回は snakemake でバリアントコール パイプラインを構築してみたいと思います。 bcftoolsによるバリアントコール まずはbamファイルからバリアントコールを行うルールを書いていきます。 rule bcftools_mpileup_call: input: rg="read_groups.tsv", bam=ex…

vcfファイルのサンプル名を変えたい

vcfファイルのサンプル名がbamファイル名なんですけど… bcftoolsで何も考えずにバリアントコールをしたとき、vcfのサンプル名はbamファイル名になっています。 別にこのままでもいいかもしれませんがなんかダサい感じがします。 そこでvcfの列名の部分にサン…

MBCluster.Seqで遺伝子間クラスタリング

RNA-seqデータのクラスタリング RNA-seqでは得られたリードを遺伝子やエキソンごとに数え上げることで発現解析を行うことは一般的なワークフローの一つです。得られたカウントデータは通常、行に遺伝子またはエキソン、列にサンプルが並ぶような形の数値行列…

Genome Graphを参照配列とする時代が来たみたいです

Reference Bias 現在広く普及しているゲノム配列解析では、実験対象の種のゲノム配列を代表する参照配列(リファレンス)を用意し、それに対しシーケンスされたリードをマッピングするという手順を踏みます。 しかし、この方法にはReference Biasという現象…

蛍光ジェノタイピングデータクラスタリングアプリを更新しました

アプリURL https://sabe.shinyapps.io/clfbg/ ということで、改めてアプリの詳しい使い方をここで示したいと思います。 アプリサイトにアクセスするとまず最初に以下のような画面が現れます。 最初にすることはインプットファイルのロードです。上図で赤く囲…

Ideogram plotについて (R)

Rでgenomic dataをプロットする場合いくつかのパッケージがあります。例えば RIdeogram IdeoViz などです。 その中の一つに karyoploteR (Bernat Gel & Eduard Serra. (2017). karyoploteR: an R/Bioconductor package to plot customizable genomes display…

RでVCFを操作する2

RでVCFファイルを操作する2ということで2ヶ月前の記事に引き続き VariantAnnotation でのVCFの扱い方について説明していこうと思います。 今回はデータのプロットまでしてみようと思います。 データインポート 前回と同様、パッケージに同梱されているVCFフ…

Gviz使ってみた

Gvizとは Gvizはゲノムブラウザーで行うような可視化をRのプロットシステムを用いて実行することを可能にしてくれるパッケージです。 GvizはTrackという単位でプロットを行います。Trackにはいくつかの種類がありそれぞれに関数があります。これらの関数を用…

競プロの問題を使ってRcppの練習をしてみた

R C++

競プロとは 競プロとは競技プログラミングの略称で、出題される問題に対し、プログラミングによって解決をし、その速さ、正確さを競うものです。 日本で競プロのコンテストを開催しているサイトといえばAtCoder(https://atcoder.jp/)が代表的だと思います。 …

最尤法についての疑問

最近、最尤法について考えることがあったのでこれについて少し書きます。特に資料を当たって書いているわけではないのでこれから書く内容は私の現時点での妄想です。。。 そもそも最尤推定の前に 最尤推定は簡単に言えばある確率モデルのパラメータを求める…

BLAST+でプライマー検索

プライマーの様な短い配列をBLASTにかけるときはデフォルトのコマンドラインのパラメータでは ヒットしないことがよくあります。 そこで今日は短い配列のBLAST検索するときのコマンドラインの設定を備忘録的にメモしておきます。 blastn -task blastn-short …

コマンドライン版BLASTのデータベース置き場をどうするか

手元にあるパブリックになっていないFASTAファイルからBLAST検索をかけたいとき、私はローカルに インストールしてあるBLAST+を使用して検索をかけます。 BLASTのデータベースは makeblastdb コマンドで作ることができます。このデータベースは検索毎 に作る…

EMBOSSのprimersearchというコマンドについて

EMBOSSとは EMBOSSとは"The European Molecular Biology Open Software Suite"の頭文字を取ったものであり、 分子生物学系の解析を行うのに便利なツール群です。詳細はこちらのリンク http://emboss.sourceforge.net/ で確認できます。 インストールは例えば…

実験プロトコルをinteractive R markdownで書いてみました

突然ですが、実験プロトコルに書いてある反応溶液の組成などは基本的に1サンプル分だったりして、そこから自分が必要な分を計算したりします。そういった作業が面倒くさい(アプリがありそうですが)のでなんとなくR markdownとShinyを使ってインタラクティ…

DESeq2で非発現変動遺伝子を見つける

発現変動解析では多くの場合発現変動している遺伝子、いわゆるDEGを検出するのが目的です。 ですので、帰無仮説はA群の平均発現量=B群の平均発現量という帰無仮説を立てて統計検定を行います。ところで、研究の目的によっては発現変動「していない」遺伝子…

RでVCFファイルを操作する

RでVCFファイルを扱う場合、CRANにある vcfR または Bioconductor の VariantAnnotation というパッケージの2つの選択肢があると思います。今回は Bioconductor の VariantAnnotation を触ってみたのでその記録を残しておきたいと思います。 Bioconductor …

Docker で Shiny Server を立てる

shinyとは、統計言語RでインタラクティブなWebアプリケーションを開発するためのパッケージです。 Shinyアプリを実際に稼働させるとなるといろいろな方法があります。実際にどんな方法があるかはhttps://shiny.rstudio.com/articles/#deploymentを参考にする…

2種類の蛍光強度データをクラスタリングする

KASP (https://en.wikipedia.org/wiki/Kompetitive_allele_specific_PCR) のような2種類の蛍光強度の強さから遺伝子型を同定する実験があります。人間が一つ一つデータを見て各サンプルの遺伝子型を決定するのは面倒なので、今回はこの実験で得られる2種類の…