2010年10月29日金曜日

BOWTIE マッピングツール の使い方 1

次世代シーケンサーのデータ解析は、発現解析、メチレーション解析、変異解析、などなどたくさんある。 
良く言われる、1次解析、2次解析、3次解析という定義は、以下の通りだ。
1次解析: ベースコールなどのリード自体のクオリティチェック。 シーケンサーに付属するソフトが自動的にやってくれることが多い。 デフォルトでOK
2次解析: リード配列の、参照配列に対してのマッピング。 参照配列は例えばゲノム配列。
3次解析: マッピングされた情報を元に行う、発現量推定や、メチル化部位の特定、SNPのDetectionなどの解析。
ちなみにデノボアセンブリは参照配列が無いので、1次解析以降のリード配列を使ってアセンブルする。

さて、では、デノボアセンブリ以外の場合、リード配列ファイルを手にしたら先ず行うべきはマッピングだ。 マッピングソフトはここhttp://seqanswers.com/forums/showthread.php?t=43にリストされているように、たくさんある。
有名なフリーのソフトでは、MAQ、Bowtie、BWA、ELAND
ELANDはイルミナシーケンサーのソフトに付属されている。 
Bowtieはカラースペースの配列もヌクレオチド配列も、ペアエンドもマッピングできて、とにかく速い。
MAQはSNP/DIPの検出に優れているらしい。
BWAも引用文献が多いのでそれなりに評価が高い。

結果を比べてみたことは無いけど、僕はBowtieに今はまっているので、今日はそれについて書く。 ちなみに、Bowtieはボウタイと発音する。

Bowtieの文献はここ http://genomebiology.com/2009/10/3/R25 
ウェブサイトはここ http://bowtie-bio.sourceforge.net/tutorial.shtml

先ずはプログラムをダウンロード
Latest Release で問題ないと思う。
僕は64Bit Linuxのサーバーに入れたので、Linux用のバイナリ(上から4つ目)を落としてきた。
インストールは特に問題なく終わると思う。 
Windows版でもインストールは問題なかった。 (僕が64bit Linux に入れた理由は、Human Genomeなどの大きなサイズのデータを扱うからである。 Windowsではどれくらいのサイズのファイルがマッピングできるか、今度試してみる)

さて、インストールができた。
Bowtieのディレクトリには、bowtie プログラムとともに、index フォルダ、genome フォルダ、などがあると思う。
ここで mkdir work などでワークディレクトリを作っておいて、その中にマッピング結果を入れるようにすると便利だ。

Bowtieがちゃんと動くかどうか、先ずチェックをしよう。
bowtie e_coli reads/e_coli_1000.fq
これをコピペしてエンターすると、ずらずらっとリードファイルが表示される これでOK
bowtie -t e_coli reads/e_coli_1000.fq e_coli.map
これの結果は、こんな感じ
ここに書いてあるのと同じ http://bowtie-bio.sourceforge.net/tutorial.shtml 

さて次は、いよいよBowtieを使ってマッピングする。 手順は、

1.ゲノム配列をもとにインデックスファイルを作る
2.インデックスファイルに対してマッピングをする
3.SAMファイルができるので、これを編集する

になる。 … BOWTIE マッピングツール の使い方 2へつづく

0 件のコメント:

コメントを投稿