2010年10月31日日曜日

BOWTIE マッピングツール の使い方 2

Bowtie がインストールできてちゃんと動くことを確認した。

マッピングには、インデックスをつけた参照配列が必要だ。
実はBowtieのサイトから、インデックスを付けたゲノム配列を、ダウンロードすることができる。
塩基配列用のインデックス済みゲノムファイルと、カラースペース用のインデックス済みゲノムファイルの2種類ある。 ファイルサイズが大きいから注意!
ダウンロードしたファイルは圧縮されているから、bowtie のプログラムがあるディレクトリの、indexes ディレクトリの中で解凍しよう。 そうすると.ebwt拡張子のファイルが6つできる。
これがインデックス済みのゲノム配列ファイルだ。

さて、indexes ディレクトリにインデックス済みゲノム配列ができた。
いよいよbowtieによるマッピングだ。 コマンドはbowtie
すべてのパラメータはマニュアルに書いてあるけど、初心者は、
-p CPUのコア数
-C color spaceのとき(デフォルトはfastq)
csfastaファイルの時は、-f でcsfasta、-Qでクオリティファイルを指定する
--sam SAMのフォーマットで出力する
--best 見つかったたくさんのマッチの中で一番ミスマッチが小さいアライメントだけを出す
-1,-2 ペアエンドの時のファイル
これだけ覚えれば大丈夫。

例えば、
bowtie -p 4 --sam -C --best hg19_c -f /(Readファイルがある場所)/val_20090928_2_Agilent_6_Exome_F3.csfasta -Q /(Readファイルがある場所)/val_20090928_2_Agilent_6_Exome_F3_QV.qual ./work/SD_Agilent_Exome_F3.sam

これは、SOLiDのウェブサイトから頂戴したサンプルデータ
val_20090928_2_Agilent_6_Exome_F3.csfasta と
val_20090928_2_Agilent_6_Exome_F3_QV.qual を、リードファイルとして、
ダウンロードしてきたインデックスファイル hg19_c をリファレンスに使って、
workディレクトリの下に、SAMファイルで出力するコマンド。
インデックスファイルのパスは指定する必要ない。

ちなみにbowtieのウェブサイトからダウンロードできるインデックス済みリファレンスゲノムは、ミトコンドリアのゲノムが含まれている。
染色体の名前は、chr1, chr2,.... となっている。 僕はそれだと使った染色体のアクセッションがわからないので、NCBIから落としてきたゲノム配列を元に、bowtie-build コマンドでインデックスを付けて、リファレンスに使っている。

そう、bowtie には、用意されたインデックス済みゲノム配列を使う以外にも、自分で集めた配列にインデックスを付けて参照配列にすることもできる。
NCBIのゲノムはここ。 ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/Assembled_chromosomes/ ヒトの場合、hg19 は GRCh37なので、
hs_ref_GRCh37_chr1.fa.gz
とかを、1~X,Yまで、落としてきた。
24本全部のファイルを、1つのFASTAファイルに結合して、参照ゲノムファイルを作った。
そして、例えば
bowtie-build -C /(fastaファイルがある場所)/hs_ref_GRCh37_all.fasta ./indexes/hs_ref_GRCh37_c
(カラースペース用の参照配列をつくるときは bowtie-build -C  って、-C を付ければOK! ヌクレオチド用なら -Cはいらない)
reference_name のところは、インデックス済み参照配列の名前になるので任意の名前を付ける。 とにかく、インデックスを付けるのには数時間かかるときもあるので、オーバーナイトで流すのがいい。

hg19 のインデックスファイルでも最初はいいので、自分のデータ、またはNCBIのSRAから落としてきたfastq ファイルなどをとりあえずマッピングしてみよう!
SAMファイルができるはず。
そのSAMファイルは、そのままでは面白くも何ともない。
ここから先は、3次解析になる。
でも、3次解析に移る前に、SAMファイルをちょっといじってみよう。 ・・・つづく

0 件のコメント:

コメントを投稿