2011年1月21日金曜日

SNPの検出アルゴリズム

Single Nucleotide Polymorphism(SNP:1塩基多型)は、遺伝学では疾患マーカーとして良く研究される分野である。 たった1塩基の差が、その病気を決定づけたり、ある薬の効果を全く無くしたり、あるいは重篤な副作用をもたらしたりするからだ。

実際、その塩基の差が、病気や副作用に関係するかどうかは、遺伝統計学の力でなんとか証明するのだけれど、それはここではひとまず置いておいて、その「塩基の違い」はどうやって見つけるのかについて考えてみよう。 もちろんシーケンスからだ。
そう、始まりはいつもマッピングファイル。

SNPの検出は、マッピングされた後のデータから始める。
有名、というか一般的な方法に、NQSという手法がある。これはNeighborhood Quality Standardの略で、リファレンス配列にマッピングしたときのリードのクオリティスコアをもとにSNPを判断する方法だ。

参考になるのはこの文献
Brockman et al. Quality scores and SNP detection in sequencing-by-synthesis systems. (2008) Genome Res. 18, 763-70. (PMID: 18212088)
ここで提唱されている手法は、多くの論文でも採用されているし、いくつかの有償ソフトでも基本的なところではそのままデフォルトになっている。 ここから先は、そんな有償ソフトの一つ、CLC-Bio社のGenomics Workbenchを例に説明しよう。

先ず、リファレンスにマッピングされている複数のリードを想像して欲しい。 そのリード配列のあるところの塩基がAで、同じ場所のリファレンス配列の塩基もA、ところが複数あるリードのなかには、その場所がCのものもある。さて、この塩基が、SNPであるかどうか?


一番上はリファレンスで、その下にたくさんあるのがマップされたリードの配列だ。
真ん中の縦の列に注目して欲しい。このAとCがSNPであるかどうかを判断するために、リードの各真ん中の塩基の、右と左の塩基のクオリティスコアを見る。

ここから先、クオリティスコアなどの閾値の例を示す。
上の絵の横のハイライトを見て欲しい。
CATAT A AATAA と、真ん中のAを中心に右に5つ、左に5つの塩基がハイライトされている。
この左右10個の塩基のクオリティスコアの平均が、最低15以上でなければならない。
また、中心の全ての塩基のクオリティスコアは、最低20でなければいけない。
これら5+5+1、計11塩基のことを、Windowサイズ11と呼ぶ。

さらに条件を加えるならば、同Windowの中にはミスマッチ・ギャップが2つ未満でなければいけない。
これらの条件から外れた場合、そのリードは、この箇所の塩基において(真ん中の縦の列)、SNP検出の候補にはならない。
また、縦の列、中心の塩基すべてのクオリティスコアが最低20に満たない場合、この塩基はSNP判定の対象にならない。

ここで、SNP判定の対象になる塩基と、その塩基の判定に用いられるリードが残るわけだ。
SNP判定には、
1.何本のリードがカバーしているか
2.その変異は、全体の何%必要か、あるいは数はいくつ必要か
などを基準に決められる。

このようにして検出されたSNPは、リストになって出力され、どのSNPがアミノ酸置換を起こしたか、などが参照できる。

フリーのソフトは、僕はまだ試していないが、やっているひとはいる。
先の文献、一度PubMedで調べて、その文献を引用している論文を見てみると、フリーツールが見つかるのではないか。
NQSは結構有名なのだ。

2011年1月20日木曜日

イルミナも小型シーケンサーをリリース

イルミナと言えば、最高クラスのスループットを誇るHiSeq2000、HiSeq1000、そして導入数世界一のGenomeAnalyzer IIx が有名。
ライバルのライフテックがIon Torrentをリリースしたのと時期を同じくして? イルミナからも小型・パーソナルゲノムシーケンサーがリリースされた。
http://www.illuminakk.co.jp/product/system/miseq.shtml
その名もMiSeq (マイセックって発音?)

シーケンス方法はSequence By Synthesis、反応と同時に読む。一回ずつ反応を止めて蛍光を読み取る。 
つまり第二世代シーケンサーの特徴であるWash-and-Scanを踏襲している。
世界中のGenomeAnalyzerと同じ原理だ。 逆に言えば、今までの安定した信頼性を担保しつつ、小型化に成功した。

シーケンス時間が、数日から数時間に短縮された。
フローセルの大きさがHiSeqの10分の1になったためか。
データアウトプットはGbに届かない。少なく感じるが、タイピングやターゲットが決まっている時など、目的によってはこれでも十分なこともある。
価格は不明。今年のブレイク製品になるか。

2011年1月17日月曜日

2.5世代シーケンサー Helicos - HeliScope

前のIon Torrentと並んで2.5世代シーケンサーとも言うべき、Second GenerationとThird Generationの間に位置しそうなシーケンサーが、Helicos社のHeliScope。

一昨年前の春、日本にHelicosのひとがセールスに来た。
バイオExpoか何かだったと思う。大勢の聴衆を前に、Single Moleculeの威力と可能性をプレゼンしていた。
その時の価格は、1台1億円だった・・・

さて、それから早2年。 日本には恐らく理研以外に入っていないと思う。
Helicos社も昨年経営が厳しくなり、大胆なリストラを行った。

シーケンス自体は、1分子を読むのでPCRを行う必要が無い。
これはSOLiDなどの第2世代シーケンサーとの大きな違い。
塩基読み取りには、化学的に塩基と切断可能な箇所に蛍光を付けてその蛍光を読み取る。
Vertual Terminatorと呼ばれる通り、蛍光読み取りごとに反応を止める。
反応を止めるのは、第2世代シーケンサーの特徴だ。
ということで、HeliScopeは2.5世代シーケンサーだ。

反応を1塩基読み取りごとに止めるので、リード長も短く、最長32塩基である。
数百万の各反応は、ばらばらに進む。これは第3世代の特徴だ。
生データのエラーは結構高く、5%以上あるそうだ。
スループットやランにかかる時間は第2世代シーケンサーと大差無いだろう。

Helicos社のためにも、利点を挙げよう。
PCRを使わないので、より「真実」に近い配列を測定できる。
また、このシーケンサーは、逆転写酵素を使用することでRNAを直接読める、らしい。

どうだろう?
HeliScopeは、第3世代シーケンサーの特徴である1分子シーケンスを売りにしているが、いかんせんリード長が短く、第2世代と比べてダントツに優れたアドバンテージが無い。
市場に出たタイミングも悪かった。
その時すでにロッシュ、イルミナ、アプライドバイオの3強が大きな資金力でシェアを広げていた。
また、Pacific BioSciences(PacBio)社やVisiGen Botechnologies社は真の第3世代シーケンサーの実現可能性を示すなど、「ちょっと待てばもっといいものが出てくる」感があった。

実際、PacBio社は2010年末に第3世代シーケンサーをリリースした。VisiGen社は2010年にLife Technologies社に買収されその技術はLife Techのブランドで近々リリースされるだろう。

悲しいかな、HeliScopeは日本では全くと言うほど導入されなかった。
代理店が無く日本語でサポートが得られないのが大きいか。
それとも価格が問題だったのか。
残念だ。テクノロジーは、素晴らしいのに。

2011年1月16日日曜日

2.5世代シーケンサー Ion Torrent Personal Genome Machine

ライフテクノロジーズ社が昨年末に発表した、半導体シーケンサ
Ion Personal Genome Machine(PGM )シーケンサー
http://www.appliedbiosystems.jp/website/jp/product/modelpage.jsp?BUCD=138106&PLCD=138105&MODELCD=138098

うーむ。コンパクトでよさそうだ。
Ion Torrent社が半導体テクノロジーを利用して開発したシーケンサー。
で、SOLiDとどう違うの? 価格は? データ量は? クオリティは?

こいつは半導体チップを使用している。
基本的にはSequence By Synthesis (SBS)で、塩基が取り込まれるときの水素イオンを検出する。
カメラは不要なのでマシーンは小さくて済む。
しかし、シーケンスにはDNAテンプレートのPCR増幅反応が必要で、その後ひとつの塩基が取り込むごとに反応を止める必要がある。これはSOLiDやIlluminaのシーケンサーでは一般的のWash-and-Scanと呼ばれる方法。
この方法の欠点は、読める長さが短くなること。
はっきりとはわからないが、アウトプットリードはおそらく数十ベースの長さだと思う。

データ量はどうか?
チップ1平方cmあたり、150万のセンサーを搭載している。
1時間で約1億塩基を読むことができるという。

ライフテック社でのこのシーケンサーの位置づけは、パーソナルという名前が付いているとおり、大型のゲノムセンター向けで無いことは明らか。
ディスカバリー目的というより診断目的に向いている。
ラボや病院、クリニック単位での導入を目指しているだろう。
日本ではどうかな?
もう買ったラボはあるのかな?

2011年1月14日金曜日

ブラウザーの選択

シーケンサーデータを「見るだけ」のツールは、世の中にたくさんある。
以前このブログの中で紹介したIGVは、使い方が簡単で見栄えも良いので、お勧め。
最近、SEQanswers.com (http://seqanswers.com/) のスレッドで見つけた、面白いブログがあるので紹介しよう。
http://jermdemo.blogspot.com/2010/08/ngs-viewers-reviewed.html

僕はビデオゲームフリークでないので、例えに使っているゲーム名がいまいちわからない。
でもなかなか良くまとまっていると思う。
IGVは飽きたから今度はGBrowse2を使ってみようかな。
ちなみにUCSCブラウザは、iphoneでも見れる。

今日は短く

2011年1月6日木曜日

NCBI-PubMed の都市伝説 1

新年最初の書き込みは軽い話題からいきます。
名付けて「NCBI-PubMedの都市伝説!」

ここから先は全く、根拠に基づいていない、伝説なのであしらかず。

Amazonで買い物したことのある人ならわかると思うけど、このサイトは、何かの本(に限らずアイテム全て)を表示すると、「この商品を買ったひとはこんな商品も買っています」って、似たような趣味のひとが買いそうな商品をリストしてくれる。
また、「この商品を見た後で、何%のひとはこんな商品を買っています」のようなありがたいお知らせもありますね。

PubMedで論文を検索すると、今は、「こんな検索クエリーで探すとこれだけの文献がヒットしますよ」とか、「あなたの検索クエリーでタイトルにヒットした文献はこれだけです」とか、「フリーの文献はこれですよ」とか、教えてくれる。

ここからが都市伝説。
PubMedもAmazonのように、ある人がどんな文献をサーチしたか、そのあと続けてどんな文献をサーチしたか、実際に文献リンクをたどった人はどれだけか、ダウンロードした文献はどれだけか、
これらを全部記録している。

これら膨大なデータを元にすれば、Amazonのように、あるタームを検索して文献のアブストを表示した時、「他のみんなはこんな文献を見ているよ」といったことをランキングで出してくれる機能が可能なのだ。
そしてそのベータ版はすでにできているという。
NIHの内部で検証が行われていて、もうすぐ公開するかもしれない。
これはいいことだろうか?
一見、ユーザにとってはいいことのように見える。
が、注意してほしい。

アクセス元のIPアドレスから、国や地域、研究所レベルまでわかるだろう。
そのひとがどのタームを検索しているか、という情報はNIHのデータベースに蓄積される。
どんな文献をダウンロードし、またどんな文献に興味がありそうかという予測情報も蓄積される。
研究目的の傾向を推定することも可能なのだ。
(現にAmazonはこういった顧客情報をマーケティングに利用している)
この情報を、アメリカの主要研究機関に売っていたら・・・

さてさて、この都市伝説、信じるかはあなた次第です。 (←どこかで聞いたような)