2011年12月26日月曜日

SureSelect のBEDファイル取得方法

Exome解析については、以前ここでも書きましたが、ワークフローは大体出来上がっています。
  1. リードをゲノムにマッピングし (BWA)
  2. 冗長性のあるリード・Duplicateを除去し (SamtoolsやPicard)
  3. キャプチャーしたExon領域だけを取り出し (Bedtools)
  4. SamtoolsでSNVを抽出し
  5. SNVにアノテーションをつける non-synonymous SNV, missense, frame-shift など
こんな感じ。
NGS Surfer's Wiki のリシークエンス
BioStar を参照

このうち、3の、キャプチャーした領域だけを取り出す、という所は、キャプチャー領域を定義したファイルが必要です。 
このファイル、BEDフォーマットであることが普通(Bedtoolsを使うときは)です。
UCSCなどの公共DBから落とすことも可能でしょうが、メーカーももちろん提供しています。

Agilent社のSureSelect Human Whole Exon 50MのBEDファイルをダウンロードして、実際にどの場所をキャプチャーしているのか、見てみましょう。


Agilent社のアレイ情報は、eArray というサイトで得ることができます。 登録が必要ですが、無料なので是非ユーザー登録しましょう!
ログイン画面はこんな感じ
ちょっと重いサイトですが、気にせずに。
右上の、Switch Application Type をクリックして、
SureSelect Target Enrichment を選びます。
Human All Exon 50Mb Kit というのが欲しいアレイ情報です。
これをダウンロードしましょう!
ゲノムバージョンを確認して、ダウンロード画面へ
BEDだけをダウンロードするのではなく、ここでは全部選択します。
欲しいのは、実は一番上のSureSelect_All_Exon・・・というファイルなのです。
後で中身を比較してみると良いでしょう。

ダウンロードが終わったら、ファイルを解凍して、さらにSureSelect_All_Exon・・・.zipを解凍して、.bedファイルを得ます。 このBedファイルはキャプチャー領域を定義しています。
先のBEDフォルダに入っているBedファイルは、プローブの設定領域を定義しているようです。

Bedファイルの中を開くとこんな感じ

これをIGV (Integrative Genomics Viewer http://www.broadinstitute.org/igv/ )上で見てみましょう!
先ず、IGVtools でインデックスを付ける必要があります。
(File > Run igvtools... でBedファイルを指定し、Indexを選択)

これをインポートすればOK!

画像は次回、このBedファイルと、BedファイルをGalaxyというフリーツールを使ってGFFファイルに変換する方法を説明するときに合わせてお見せします。

では。

0 件のコメント:

コメントを投稿