2018年2月12日月曜日

クリニカルシークエンスの知識シェアリングは日本で流行るか? SOPHiA Genetics

皆さん、SOPHiA GENETICSという会社、ご存じですか?
スイスに本社があり、ヨーロッパとアメリカ大陸を中心に、55か国にビジネスを拡大したクリニカルシークエンスのベンチャー企業です。

ITのスペシャリストを集めて始めたこの会社は、最初は他の多くの解析ベンチャーと同じく、NGSのデータをマッピング⇒SNPコーリング⇒変異解析、そしてアノテーションという解析パイプラインをクラウド上で行うシステムを作っていました。

この会社がわずか3年で400の病院にシステムを導入し、クラウド上で登録している患者さんのサンプル数は約17万人分に達した理由は、他の企業にはあり得ない、データシェアリングというアイデアをシークエンス解析に応用していること!

なんと‼ データシェアリング⁉ を、クリニカルシークエンスに応用⁉

データシェアリングといっても配列ファイルをシェアするわけではありません。
このクラウド上の解析パイプラインは、SOPHiA DDM (Data Driven Medicine)と呼ばれます。

ユーザはFastqファイルをSOPHiA DDMクラウドにアップします。
するとアライメント、SNVs検出、変異解析は自動で行われます。

変異解析に必要なのは、見つけた変異に疾患関連性があるか無いか?ですよね。 pathogenic, begin, unknown significance とか、聞いたことがあるひともいると思います。
この疾患関連性のアノテーションは普通、健常人でも見られるSNVsをフィルタリングした後、世界中の「変異と疾患の関連性」データベースに照らし合わせて行われます。
一般的なのは、ClinVarなど信頼ある公共データベースをもとに、既知のPathogenicisty情報をアノテーションする方法。

今までの考え方では、他のユーザがアノテーションしたSNVs情報は、そのユーザまたは共同研究機関の内部だけでシェアされるのが普通でした。
ところがSOPHiA DDMの中では、全世界のほかのユーザがアノテーションし、判断したPathogenicistyの情報をシェアできるのです!

ACCESS TO CLINICAL GENOMICS COMMUNITY
SOPHiA GENETICS has built the World's Largest Clinical Genomics Community with hundreds of institutions worldwide participating in the democratization of Data-Driven medicine. Through SOPHiA DDM, thousands of experts can easily interpret the variants and flag them with the appropriate level of pathogenicity. This highly valuable information feeds the variant knowledge base and is anonymously and safely shared among the members of the community.

もちろん、ユーザがアップロードしたサンプルの配列情報や、患者情報、疾患情報はシャアされません。
シェアされるのは、「遺伝子Aの変異Vが、疾患などのフェノタイプDと関連する」というアノテーション情報のみ。
この情報と数多くの公共DB情報、さらに日々追加される膨大なNGSデータ、これらを今はやりのAIで解析し最高精度のアノテーションを行うのが、SOPHiA DDMです。

そうなってくるとデータのセキュリティが心配になりますよね。
でもそこは心配ご無用! 世界で最も厳しい、EUの一般データ保護規則(GDPR: General Data Protection Regulation)に準拠しているそうです。
さらにISO 13485(医療機器・体外診断用医薬品)、ISO/IEC 27001(情報セキュリティ)も取得済み。

このビジネスモデルは、ヨーロッパやアメリカではかなり受け入れられており、今イケイケの成長企業です。
ビジネスの範囲もデータ解析だけでなく、上流の疾患遺伝子パネルの開発や、トレーニングの実施、顧客ラボのISO取得コンサルティングなど多岐にわたっています。
ちなみに2017年の50 SMARTEST COMPANIESで見事30位になっていますよ!
(テスラモーターが31位、オックスフォードナノポアが32位、マイクロソフトが27位)

クラウドでのクリニカルNGSデータ解析ということと、変異解釈のデータシェアリングというアイデアが、日本ですぐに受け入れられるかどうかはわかりません。
ですが世界では確実に主流になっていくような気がしました。私の勘ですが。

2017年11月4日土曜日

DRAGEN 名実共に世界最速のNGSサーバに! ギネスブックに載ったぜい!

今気付いたんですが、このブログの前回の記事が昨年のASHGだったんですね。
それもEdicogeonme社、DRAGENの話。
偶然ですが今回の記事もASHG、それもDRAGENの話!


ついに、ギネスブックに載ったぜ!

このニュースはすごいと思いません?
真ん中にいるジャケット来たかたがギネスのおっさんです。

どういうことでギネスに載ったのか、というと、1000人分のヒトゲノムを最高スピードで解析するシステム、ということらしいです。
私もちゃっかり記念撮影

Edicoの夜のパーティにはたくさんひとが集まり、盛り上がりました。
昨年はバンクーバーで、今年はオーランド。
バンドの生演奏やもちろんタダ飯&タダビール。もちろんプレゼンもこんな感じに、真面目にやってました。


さて、Edicogenome社のホームページに行ったかたは気づいたかも知れませんが、Dragenがクラウドサービスを始めました。
具体的にはDNA Nexusのパイプラインを使っていて、DNA NexusはAWSを使っている、というわけですが、現在はアメリカだけのサービスです。
残念ながら、AWSとの大人の事情で、日本ではクラウドサービスの予定は未定なんです。

というわけで日本ではハードウェアがありますのでどうぞ宜しくお願いします!

このギネスの話を拡散したら、問い合わせがあちこちから来ました。
日本のクリニカルシークエンスにも、Dragenサーバが使われる日も近い、かな。


2016年10月21日金曜日

アメリカ人類遺伝学会 ASHG Edicogenomeの日

2016年10月19日、バンクーバーにて

今日はEdicogenomeの日。というのは私が勝手につけたのですが、朝7時からのモーニングセッションに始まり、昼間は展示会場のブース、夜7時からのパーティーに至るまで、Edico社にかかりっきりな1日だったので。

Edico社といえば、あの、超高速NGS解析サーバ・Dragenを売っている会社。
何といっても、FPGA、集積回路に直接「マッピング→変異解析パイプライン」を書き込んでいるから、文字通り超高速で解析ができる。

モーニングセッションでは、Hudson AlphaやBaylerなどから一線の研究者が集まり、Precision Medicineに超高速NGS解析はどう貢献するか、というテーマでディスカッションされました。

パネルディスカッションの様子
朝7時ですよ。
こんな早いモーニングセッションは初めて

個人的には、Dragenサーバは、クリニカルシークエンス時代の解析プラットフォームの標準となる、可能性は高いと思います。
FDAの認証を受ける働きをしている各研究機関では、解析パイプラインの中に、Dragenサーバを組み込んでいました。(Edico社主催のセミナーだからリップサービスはあると思いますが、客観的な立場でもDragenを褒めていました)
Edico社も当然、Precision Medicine時代にDragenサーバが採用されるべく、着々と準備を重ねているようです。

演者のひとり、Ray氏が言っていた、「Focus on science, Not infrastructure 」というのが印象的でした。
Dragenは一種のインフラです。解析インフラです。
大掛かりなクラスターサーバをそろえて、メンテナンスすることに巨額な予算を振り分けるより、その分をサイエンスに与えるべきだ。という主張です。
医者や研究者が多いこの学会では「受ける」言葉ですね。

あえて付け足すとすれば、現代のゲノミクスはテラバイト、ペタバイトの規模。
でもエクサバイトの時代がすぐそこまできていることを想定すると、DragenがあってもITエンジニアは必要で、それなりに予算を振り分ける必要はあると思いますけどね。

Dragenサーバは、たった1つのブレードなので、単純な作りです。
ハードなのでいつか壊れますが、その時は部品を交換するだけ。
既存のGATKパイプラインの結果に合わせたければ、そのようにチューニングできます。
Edico社の経験豊富なエンジニアに頼んで、いくらでもカスタマイズできます。
実際、Hudson Alphaでは、自分たちに使いやすいようににカスタマイズしているそうです。

そうやって精度を合わせれば、あとはスピードの勝負。
30xのヒト全ゲノム解析が20分、Exomeが1分、で完了という世界です。

夜のパーティでは、場所を旧Bank of Canadaの建物に移し、クラウドサービスの発表がありました。
壁に映してのプレゼン
Edico社のCEO
まだクラウドサービスの開始時期は未定ですが、IBM社と組んでいますので、本気です。

GUIもまもなく出来上がります。これは結構使いやすくなる感じ

名前にちなんだ、Dragon Breathという、スペシャルカクテルがこちら
ドライアイス入りの強めカクテル
長い1日でした・・・。



2016年7月11日月曜日

2016年7月、NGSマシンの比較


私がお勧めするNGS関係のブログに、今年2016年7月版の、NGS比較が載っていました。
全文はこちら

おそらく皆さんも、いろんなNGS関係のスライドでこのようなグラフを見たことがあるでしょう。
横軸がリード長、縦軸がランあたりデータスループットのグラフです。
私も個人で作ったことがあります。

さて、このブログでは、PacBioのSequelについて抜けています。


その通り、Sequelについてのデータはまだ「公開」されていません。
データはあります。
2kbラムダ、6kb、10kb、15kbライブラリの大腸菌、
データはあります。
お見せすることは全くかまわないのですが、ウェブにアップはまだ許されていないので、残念ながらオフィシャルに公開できないのです。
何事にも順序があるのでしょうね

PacBio社の予定では、まもなくSequelのデータが「公開」されます。
それは大腸菌のデータになると思います。
シークエンス配列なのに、BAMファイルです。

ま、お楽しみに。

2016年7月10日日曜日

NGS10年の軌跡 NGSの初心者向けに最適なレビューの紹介


このブログ、ショートリードの憂鬱で、初期の頃に、NGSテクノロジーについて紹介しました。
日本にNGSが入っていたのはいつ頃でしょう?
正確には覚えていないですが、2008年ごろでしょうか?
その頃の分生で、SolexaやSOLiDの説明を聞いた気がします。
すごい時代が来るなあ、って思った記憶が。
シークエンスのそれまでの概念が、がらっと変わりましたね。
だって、たった数十塩基(当時)でシークエンスと呼んでいたんですから!!
それより前から454があったって? それはひとまずおいといて。

しかし、それから数年後、ショートリードの長さは100bp~200bp余りに伸び、PacBioのロングリードが現れ、データ量はムーアの法則を超え、ラボ単位でも買える小型マシンも現れ、買収されたり、ディスコンされたり、マーケットは大きく変化しました。

そこで、2016年、NGSとNGS関連技術の紹介レビューがでました。

ここでは、既にディスコンになってしまった技術も、また、これから日本に来るであろう(アメリカではリリースしている)マシンも、シークエンサーでは無いけれどNGS関連機器も、合わせて紹介されている。

Must Readレビューです!!








2016年3月6日日曜日

DRAGENサーバ とりあえず動かしてみた(1)

この間、秋葉原で「第二回PacBio現場の会」という、PacBio Specificのセミナーをやりました。
その中で余興として、例の超高速NGSサーバ「DRAGEN」のデモをやるはずでした・・・。

まあ、いろいろあって、23日には間に合わなくて、うちの同僚Dにはプレゼンで乗り切ってもらいましたが。

そんな中、ついに、先週我がオフィスに到着したDRAGEN君。
オフィスについて早速ケースを脱がされ、裸のハードを横から見られているDragen君。かわいそうなので写真は前から

同僚Dは早速セットアップ、ヒトゲノムリファレンスを入れて、ハッシュテーブルを作って、HiSeq2000のサンプルデータを流してくれた。
20Xの全ゲノムシークエンスデータ。

パイプラインは、
  1. fastqのgzを入力データに
  2. リファレンスマッピング
  3. Bamファイルを書き出して
  4. Variant Callingして
  5. VCFを出力
という至ってベーシックなもの


で、速さなんですが、

笑ってしまうくらい速い!

Time loading reference:              00:00:00.000
Time aligning reads:                 00:07:06.006
Time sorting and marking duplicates: 00:09:37.107
Time saving map/align output:        00:09:43.040
Time partial reconfiguration:        00:00:06.019
Time variant calling:                00:09:51.977
Total runtime:                       00:17:13.450

20カバレッジヒトゲノムのマッピングからSNPコールまでが17分?
もう一度、今度は私が別のデータ(同じく約20X)でトライ

Time loading reference:              00:00:20.827
Time aligning reads:                 00:06:59.932
Time sorting and marking duplicates: 00:09:01.473
Time saving map/align output:        00:09:06.573
Time partial reconfiguration:        00:00:05.873
Time variant calling:                00:09:17.615
Total runtime:                       00:16:59.875

えっ、17分?速っ!
20Xの全ゲノムマッピングですよ!

何でこんなに速いのかは、FPGA使ってます、以外に正直説明できないのですが、とにかく速いのは確かです。

コマンドラインなんで、デモをやったとしても、はっきり言って、地味です。
ターミナル眺めているだけになるので、これなら「現場の会」で見せるとしても工夫が必要だったなーと、いまさらながら思います。


今日は、「とりあえず動かしてみたら、やっぱり速かった」という報告です。
本当はもっと大きなデータ、それもBCLから試すべきでしたけれども、手元にBCLが無かったので断念。
BCL→fastq変換も、確か10分程度で終わるはずです。
これもすごい速いですよね!!

まあ今回は、fastq.gzからの入力でも十分速いことが実感できたのでこれで良しとします。
次回は、BCLからの変換速度、いくつか解析メニューの紹介、になるかな。


というわけで皆さん、DRAGENに興味があるならば、もう日本でトライアル可能です!

一番簡単なのは、ハードディスクでHiSeqのデータを送ってもらうことでしょうか。
オフィスに到着したら、DRAGENサーバにコピーして、解析します。
(もしお客さんが解析の様子を実感したければ、ウェブミーティングなどで生中継することも可能かな?)
そして結果とログファイルを全部お返しする。という流れ。
興味がある方は、こちらからカタログ請求の下の備考欄に、「DRAGENトライアルしたい!」と書いて送ればOK!
「このサーバ、いくらですか?」 という質問にも、丁寧にお答えします。

データを外に出せない!という方は、その旨書いてくれれば、サーバ本体を貸し出すことも条件付きですが可能です。



2016年1月26日火曜日

Biomatters ニュージーランドのNGS解析ソフト会社 安くても高機能

私のことを個人的に知っている方なら、以前、NGS解析ソフトといえばCLC-Bio!みたいなことを言っていたのをご存知でしょう。

CLC-BioのGenomics Workbenchは確かに、良くできたソフトです。
NGS解析ひと通りのことはできる。
マルチプルアライメントやBLASTなど、普通の配列解析もできる。
プラグインを使えば(有償、無償いろいろある)、解析の幅も広がる。
サポートをやっていたので贔屓にしていましたが、お客さんから言われた欠点らしきものといえば、価格が高いこと。
確かアカデミックで、70万円以上+年間アップデート費

限られた研究費で、実験にお金をかけるのはともかく、ソフトウェアにはできればあまりお金をかけたく無い、というのも良く耳にしました。
だから無料トライアル期間を利用して解析を一気にやってしまおう!という考えの方もいらっしゃった。
その気持ち、わかります。

でも、もっと安いソフトがあれば、使用制限無しに使い倒せば良い。

CLC-Bio社の創設者がかつてオックスフォード大学に在籍していたとき、同じ大学のもうひとりの研究者も、配列解析のソフト会社を作りたいと考えていました。
そして、ひとりはデンマークでCLC-Bio社を立ち上げ、もうひとりはニュージーランドでBiomatters社を作った。
お互い、配列解析ソフトウェア専門の会社。
コンセプトは若干違うものの、ふたりとも、「バイオインフォマティシャンではないウェット研究者でも使えるソフトウェア」を、世界中に普及させた。

日本でCLC(現キアゲン)の方が知名度が高かったのは、いち早く代理店制を取り入れたから。私も結構あちこちで宣伝しました。ええ。

Biomattersは遅れながらも昨年ようやく、トミーデジタルバイオロジー(株)と代理店契約を結んだ。
ということで私のPCには現在、BiomattersのNGSソフトウェア「Geneious」が入っています。
正直、使いやすさは良いです。
一般的な配列解析(NGS以外)は一通り揃っています。
NGS関連だと、アセンブリ、マッピング、変異解析、16S解析(パイチャート作成まで)、などなどはOKです。
ChIP-Seqはできない。

GUIはまあまあ。すごくかっこ良いというわけでは無いけれど、ダサくも無いかな。
一番の売りは、低価格ということと、無料のプラグインが多いこと。

低価格というのは、他のソフトと比べて、という条件付き。
ざっくり、Genomics Workbenchの半額以下です。

あとは、3月25日まで、2本買うと1本無料で付いてくるキャンペーンやってます(アカデミック価格で税抜き)。
ソフトウェア3本買って30万円未満!
ということは1本10万円!
ね、安いでしょ。これならもう、トライアル期間で解析しちゃえ!なんて思わないでしょ?(笑)
もちろん、トライアル期間も無くは無いです。



このソフトは買取りです。
2年目からは、アップデートフィーがかかります。

さらに、もしあなたが学生さんなら、1本、78,840円で買うこともできます!
安いでしょ? 詳しくはこちら下のほうをチェック。

安くても、機能はかなり充実しているソフトウェアです。それは保証します。
世界のシェアも実は1位かもしれない。ですよ。


こちらのイベント、「第二回PacBio現場の会」もよろしく
Geneiousの質問もあればこのときにどうぞ