2011年7月6日水曜日

MiSeqのデータセット

イルミナ社も、いよいよデスクトップ型シーケンサーをリリースするそうです。
それに先立ち、早くもデモデータセットが公開されています。 
http://www.illumina.com/systems/miseq/ecoli.ilmn


このページの、右上あたりにある、Download the data から、FastqファイルとBAMファイルが落とせます。 E.coliのデータです。
サイズが大きく、ダウンロードに結構時間がかかるので、wget で取得すると良いと思います。

(wget http://.........ファイルのURL............)

ついでに、というかこっちの方が面白いかもしれませんが、BAMファイルの下の、プレゼンテーションファイルも落として見てみましょう。
びっくりしますが、スライドの後半部分に、MiSeqデータとIon Torrent PGMデータの比較、があるのです!
ここから先は実際にダウンロードしてからのお楽しみ?
当たり前ですが、MiSeqの方がいい! と結論しています。

カバレージで言うと、1ランで1.7Gb読めるMiSeqは、393x
一方PGMは6~8ラン読んでも11~24Mbで、2~5x

クオリティはどうでしょう?
プレゼンにも書いてあるのですが、せっかくReadファイルを落とせるので、fastqファイルを取得し、FastQCにかけてみました。
ここから先は、イルミナさんのプレゼンではなく、私が行った内容です。
ちなみにPaired-Endです。以下、R1とR2の順に示しています。

Quality Score
GC Content per Sequence


その他、リード長は151、平均クオリティはQ35/Q34、GCはどちらも50%でした。

私が気になったのは、クオリティのばらつきです。
150塩基まで読めるとはいっても、リードによっては、後ろの方は結構Qが低い塩基も含まれるようですね。
とは言っても100塩基あたりまで、平均してQ30あったのは驚きました。


実際、このデータでアセンブルをすると、どれくらいつながるのでしょうか。
先のプレゼンの中に、じつは答えはあるのですが。

0 件のコメント:

コメントを投稿