2011年2月2日水曜日

SNP検出のアルゴリズム2

SNP検出で前回、NQSを書いた。
クオリティスコアについては、様々な閾値で設定することができるが、文献で見たことがあるのは、
“11-base NQS 20/15 threshold”
というもの。
これはSNP検査対象の塩基を中心に前後5ベース、の計11ベースのクオリティを見て、
中心は20、前後5ベースは15、以上あるとき、の中心塩基を検査する、というもの。
先のCLC-Bio Genomics Workbench を例にしたときのデフォルト。
NQSは次世代シーケンサーの前から良く使われていたらしい。

Shen Y, Wan Z, Coarfa C, Drabek R, Chen L, Ostrowski EA, Liu Y, Weinstock GM,
Wheeler DA, Gibbs RA, Yu F.
A SNP discovery method to assess variant allele probability from next-generation resequencing data. Genome Res. 2010 Feb;20(2):273-80. Epub 2009 Dec 17. PubMed PMID: 20019143

僕もこの閾値が絶対だとは思わないので、いろいろ変える必要はありそうだ。

実はSNP検出に関して、この閾値よりももっと大事なのは、マッピングするときのアルゴリズム。
つまりギャップありマッピングか、ギャップなしマッピングかで、結果は大きく変わってくるのだ。
ギャップありの場合、1塩基単位のInsertion、Deletionも検出可能になる。
ギャップありマッピングは、BWAなどで可能だが、精度が高い分ランに時間がかかる。
しかし小さいInDelを検出できるとともに、SNPの擬陽性確率が低いという報告もある。
昨年末のBMBでもあるポスター発表者と話したのだが、BWAなどのギャップありマッピングは、SNP検出時に行うマッピングとしては、Bowtieなどのギャップ無しマッピングと比べて優れているそうだ。

ちなみに有償ソフトのNextGENeも、ユニークなSNP検出アルゴリズムを用いている。
計算式が複雑すぎて僕は理解できないが、興味のあるひとはのぞいてみると良い。
http://www.softgenetics.com/NextGene_UsersManual_version_2-0.pdf
114ページ、Overall Mutation Score の章から先

2 件のコメント:

  1. お聞きしたいのですが、、、、

    疾患の原因遺伝子の同定を目指していまして、
    マウスの染色体5番の6M baseの領域にfocusをしています。
    マウスはご存知のように
    系統差が大きいので、ある系統の6M base領域のreferenceを作るために、
    NCBIのSRAからassembleを行おうと考えていますが、苦労しております。
    ハイスペックのPCがないとアッセンブルはできないのでしょうか。
    お金はかけたくない状況です。
    たった7Mbaseの領域なので、そこまでハイスペックPCもいらない気がするのですが、
    解析ソフトはかなりの容量を要求するようです。

    時間はいくらかかっても問題ない状況なのですが、何かいい解決策はないのでしょうか。
    ご返信お待ちしております。

    返信削除
  2. 7Mbaseは、ゲノムサイズで言うと大腸菌以上出芽酵母未満といったところでしょうか。私が使っているGenomics Workbenchという有償ソフトは、数メガ程度のアセンブルならちょっと高性能のPC(16Gメモリ、Corei7、64bit、Windows7)で数時間で終わります(もっと速いかも)。 どんなContigができるかはやってみないとわかりませんが。
    フリーのアセンブルツールは、Velvetなら比較的低スペックでもいけるのではないでしょうか。ベンチマークはありませんが、Linuxに詳しい方がいらっしゃれば試す価値はあります。
    有償ソフトの方が使いやすいと思いますので、無料トライアルの期間に試してみるのも手です。

    返信削除