2017年11月4日土曜日

DRAGEN 名実共に世界最速のNGSサーバに! ギネスブックに載ったぜい!

今気付いたんですが、このブログの前回の記事が昨年のASHGだったんですね。
それもEdicogeonme社、DRAGENの話。
偶然ですが今回の記事もASHG、それもDRAGENの話!


ついに、ギネスブックに載ったぜ!

このニュースはすごいと思いません?
真ん中にいるジャケット来たかたがギネスのおっさんです。

どういうことでギネスに載ったのか、というと、1000人分のヒトゲノムを最高スピードで解析するシステム、ということらしいです。
私もちゃっかり記念撮影

Edicoの夜のパーティにはたくさんひとが集まり、盛り上がりました。
昨年はバンクーバーで、今年はオーランド。
バンドの生演奏やもちろんタダ飯&タダビール。もちろんプレゼンもこんな感じに、真面目にやってました。


さて、Edicogenome社のホームページに行ったかたは気づいたかも知れませんが、Dragenがクラウドサービスを始めました。
具体的にはDNA Nexusのパイプラインを使っていて、DNA NexusはAWSを使っている、というわけですが、現在はアメリカだけのサービスです。
残念ながら、AWSとの大人の事情で、日本ではクラウドサービスの予定は未定なんです。

というわけで日本ではハードウェアがありますのでどうぞ宜しくお願いします!

このギネスの話を拡散したら、問い合わせがあちこちから来ました。
日本のクリニカルシークエンスにも、Dragenサーバが使われる日も近い、かな。


2016年10月21日金曜日

アメリカ人類遺伝学会 ASHG Edicogenomeの日

2016年10月19日、バンクーバーにて

今日はEdicogenomeの日。というのは私が勝手につけたのですが、朝7時からのモーニングセッションに始まり、昼間は展示会場のブース、夜7時からのパーティーに至るまで、Edico社にかかりっきりな1日だったので。

Edico社といえば、あの、超高速NGS解析サーバ・Dragenを売っている会社。
何といっても、FPGA、集積回路に直接「マッピング→変異解析パイプライン」を書き込んでいるから、文字通り超高速で解析ができる。

モーニングセッションでは、Hudson AlphaやBaylerなどから一線の研究者が集まり、Precision Medicineに超高速NGS解析はどう貢献するか、というテーマでディスカッションされました。

パネルディスカッションの様子
朝7時ですよ。
こんな早いモーニングセッションは初めて

個人的には、Dragenサーバは、クリニカルシークエンス時代の解析プラットフォームの標準となる、可能性は高いと思います。
FDAの認証を受ける働きをしている各研究機関では、解析パイプラインの中に、Dragenサーバを組み込んでいました。(Edico社主催のセミナーだからリップサービスはあると思いますが、客観的な立場でもDragenを褒めていました)
Edico社も当然、Precision Medicine時代にDragenサーバが採用されるべく、着々と準備を重ねているようです。

演者のひとり、Ray氏が言っていた、「Focus on science, Not infrastructure 」というのが印象的でした。
Dragenは一種のインフラです。解析インフラです。
大掛かりなクラスターサーバをそろえて、メンテナンスすることに巨額な予算を振り分けるより、その分をサイエンスに与えるべきだ。という主張です。
医者や研究者が多いこの学会では「受ける」言葉ですね。

あえて付け足すとすれば、現代のゲノミクスはテラバイト、ペタバイトの規模。
でもエクサバイトの時代がすぐそこまできていることを想定すると、DragenがあってもITエンジニアは必要で、それなりに予算を振り分ける必要はあると思いますけどね。

Dragenサーバは、たった1つのブレードなので、単純な作りです。
ハードなのでいつか壊れますが、その時は部品を交換するだけ。
既存のGATKパイプラインの結果に合わせたければ、そのようにチューニングできます。
Edico社の経験豊富なエンジニアに頼んで、いくらでもカスタマイズできます。
実際、Hudson Alphaでは、自分たちに使いやすいようににカスタマイズしているそうです。

そうやって精度を合わせれば、あとはスピードの勝負。
30xのヒト全ゲノム解析が20分、Exomeが1分、で完了という世界です。

夜のパーティでは、場所を旧Bank of Canadaの建物に移し、クラウドサービスの発表がありました。
壁に映してのプレゼン
Edico社のCEO
まだクラウドサービスの開始時期は未定ですが、IBM社と組んでいますので、本気です。

GUIもまもなく出来上がります。これは結構使いやすくなる感じ

名前にちなんだ、Dragon Breathという、スペシャルカクテルがこちら
ドライアイス入りの強めカクテル
長い1日でした・・・。



2016年7月11日月曜日

2016年7月、NGSマシンの比較


私がお勧めするNGS関係のブログに、今年2016年7月版の、NGS比較が載っていました。
全文はこちら

おそらく皆さんも、いろんなNGS関係のスライドでこのようなグラフを見たことがあるでしょう。
横軸がリード長、縦軸がランあたりデータスループットのグラフです。
私も個人で作ったことがあります。

さて、このブログでは、PacBioのSequelについて抜けています。


その通り、Sequelについてのデータはまだ「公開」されていません。
データはあります。
2kbラムダ、6kb、10kb、15kbライブラリの大腸菌、
データはあります。
お見せすることは全くかまわないのですが、ウェブにアップはまだ許されていないので、残念ながらオフィシャルに公開できないのです。
何事にも順序があるのでしょうね

PacBio社の予定では、まもなくSequelのデータが「公開」されます。
それは大腸菌のデータになると思います。
シークエンス配列なのに、BAMファイルです。

ま、お楽しみに。

2016年7月10日日曜日

NGS10年の軌跡 NGSの初心者向けに最適なレビューの紹介


このブログ、ショートリードの憂鬱で、初期の頃に、NGSテクノロジーについて紹介しました。
日本にNGSが入っていたのはいつ頃でしょう?
正確には覚えていないですが、2008年ごろでしょうか?
その頃の分生で、SolexaやSOLiDの説明を聞いた気がします。
すごい時代が来るなあ、って思った記憶が。
シークエンスのそれまでの概念が、がらっと変わりましたね。
だって、たった数十塩基(当時)でシークエンスと呼んでいたんですから!!
それより前から454があったって? それはひとまずおいといて。

しかし、それから数年後、ショートリードの長さは100bp~200bp余りに伸び、PacBioのロングリードが現れ、データ量はムーアの法則を超え、ラボ単位でも買える小型マシンも現れ、買収されたり、ディスコンされたり、マーケットは大きく変化しました。

そこで、2016年、NGSとNGS関連技術の紹介レビューがでました。

ここでは、既にディスコンになってしまった技術も、また、これから日本に来るであろう(アメリカではリリースしている)マシンも、シークエンサーでは無いけれどNGS関連機器も、合わせて紹介されている。

Must Readレビューです!!








2016年3月6日日曜日

DRAGENサーバ とりあえず動かしてみた(1)

この間、秋葉原で「第二回PacBio現場の会」という、PacBio Specificのセミナーをやりました。
その中で余興として、例の超高速NGSサーバ「DRAGEN」のデモをやるはずでした・・・。

まあ、いろいろあって、23日には間に合わなくて、うちの同僚Dにはプレゼンで乗り切ってもらいましたが。

そんな中、ついに、先週我がオフィスに到着したDRAGEN君。
オフィスについて早速ケースを脱がされ、裸のハードを横から見られているDragen君。かわいそうなので写真は前から

同僚Dは早速セットアップ、ヒトゲノムリファレンスを入れて、ハッシュテーブルを作って、HiSeq2000のサンプルデータを流してくれた。
20Xの全ゲノムシークエンスデータ。

パイプラインは、
  1. fastqのgzを入力データに
  2. リファレンスマッピング
  3. Bamファイルを書き出して
  4. Variant Callingして
  5. VCFを出力
という至ってベーシックなもの


で、速さなんですが、

笑ってしまうくらい速い!

Time loading reference:              00:00:00.000
Time aligning reads:                 00:07:06.006
Time sorting and marking duplicates: 00:09:37.107
Time saving map/align output:        00:09:43.040
Time partial reconfiguration:        00:00:06.019
Time variant calling:                00:09:51.977
Total runtime:                       00:17:13.450

20カバレッジヒトゲノムのマッピングからSNPコールまでが17分?
もう一度、今度は私が別のデータ(同じく約20X)でトライ

Time loading reference:              00:00:20.827
Time aligning reads:                 00:06:59.932
Time sorting and marking duplicates: 00:09:01.473
Time saving map/align output:        00:09:06.573
Time partial reconfiguration:        00:00:05.873
Time variant calling:                00:09:17.615
Total runtime:                       00:16:59.875

えっ、17分?速っ!
20Xの全ゲノムマッピングですよ!

何でこんなに速いのかは、FPGA使ってます、以外に正直説明できないのですが、とにかく速いのは確かです。

コマンドラインなんで、デモをやったとしても、はっきり言って、地味です。
ターミナル眺めているだけになるので、これなら「現場の会」で見せるとしても工夫が必要だったなーと、いまさらながら思います。


今日は、「とりあえず動かしてみたら、やっぱり速かった」という報告です。
本当はもっと大きなデータ、それもBCLから試すべきでしたけれども、手元にBCLが無かったので断念。
BCL→fastq変換も、確か10分程度で終わるはずです。
これもすごい速いですよね!!

まあ今回は、fastq.gzからの入力でも十分速いことが実感できたのでこれで良しとします。
次回は、BCLからの変換速度、いくつか解析メニューの紹介、になるかな。


というわけで皆さん、DRAGENに興味があるならば、もう日本でトライアル可能です!

一番簡単なのは、ハードディスクでHiSeqのデータを送ってもらうことでしょうか。
オフィスに到着したら、DRAGENサーバにコピーして、解析します。
(もしお客さんが解析の様子を実感したければ、ウェブミーティングなどで生中継することも可能かな?)
そして結果とログファイルを全部お返しする。という流れ。
興味がある方は、こちらからカタログ請求の下の備考欄に、「DRAGENトライアルしたい!」と書いて送ればOK!
「このサーバ、いくらですか?」 という質問にも、丁寧にお答えします。

データを外に出せない!という方は、その旨書いてくれれば、サーバ本体を貸し出すことも条件付きですが可能です。



2016年1月26日火曜日

Biomatters ニュージーランドのNGS解析ソフト会社 安くても高機能

私のことを個人的に知っている方なら、以前、NGS解析ソフトといえばCLC-Bio!みたいなことを言っていたのをご存知でしょう。

CLC-BioのGenomics Workbenchは確かに、良くできたソフトです。
NGS解析ひと通りのことはできる。
マルチプルアライメントやBLASTなど、普通の配列解析もできる。
プラグインを使えば(有償、無償いろいろある)、解析の幅も広がる。
サポートをやっていたので贔屓にしていましたが、お客さんから言われた欠点らしきものといえば、価格が高いこと。
確かアカデミックで、70万円以上+年間アップデート費

限られた研究費で、実験にお金をかけるのはともかく、ソフトウェアにはできればあまりお金をかけたく無い、というのも良く耳にしました。
だから無料トライアル期間を利用して解析を一気にやってしまおう!という考えの方もいらっしゃった。
その気持ち、わかります。

でも、もっと安いソフトがあれば、使用制限無しに使い倒せば良い。

CLC-Bio社の創設者がかつてオックスフォード大学に在籍していたとき、同じ大学のもうひとりの研究者も、配列解析のソフト会社を作りたいと考えていました。
そして、ひとりはデンマークでCLC-Bio社を立ち上げ、もうひとりはニュージーランドでBiomatters社を作った。
お互い、配列解析ソフトウェア専門の会社。
コンセプトは若干違うものの、ふたりとも、「バイオインフォマティシャンではないウェット研究者でも使えるソフトウェア」を、世界中に普及させた。

日本でCLC(現キアゲン)の方が知名度が高かったのは、いち早く代理店制を取り入れたから。私も結構あちこちで宣伝しました。ええ。

Biomattersは遅れながらも昨年ようやく、トミーデジタルバイオロジー(株)と代理店契約を結んだ。
ということで私のPCには現在、BiomattersのNGSソフトウェア「Geneious」が入っています。
正直、使いやすさは良いです。
一般的な配列解析(NGS以外)は一通り揃っています。
NGS関連だと、アセンブリ、マッピング、変異解析、16S解析(パイチャート作成まで)、などなどはOKです。
ChIP-Seqはできない。

GUIはまあまあ。すごくかっこ良いというわけでは無いけれど、ダサくも無いかな。
一番の売りは、低価格ということと、無料のプラグインが多いこと。

低価格というのは、他のソフトと比べて、という条件付き。
ざっくり、Genomics Workbenchの半額以下です。

あとは、3月25日まで、2本買うと1本無料で付いてくるキャンペーンやってます(アカデミック価格で税抜き)。
ソフトウェア3本買って30万円未満!
ということは1本10万円!
ね、安いでしょ。これならもう、トライアル期間で解析しちゃえ!なんて思わないでしょ?(笑)
もちろん、トライアル期間も無くは無いです。



このソフトは買取りです。
2年目からは、アップデートフィーがかかります。

さらに、もしあなたが学生さんなら、1本、78,840円で買うこともできます!
安いでしょ? 詳しくはこちら下のほうをチェック。

安くても、機能はかなり充実しているソフトウェアです。それは保証します。
世界のシェアも実は1位かもしれない。ですよ。


こちらのイベント、「第二回PacBio現場の会」もよろしく
Geneiousの質問もあればこのときにどうぞ

2016年1月13日水曜日

マクロジェンが超高速NGS解析サーバ「Dragen」を採用!

またまたPAGからのニュースです。
あの韓国のマクロジェン社が、”大規模ゲノム解析と臨床シーケンス解析サービス向けにビッグデータのプロセシング・解析機能を強化するため”、NGS解析サーバにDragenを採用したとのこと!
詳細はこちら

Dragenといえば、前回も3回にわたって紹介しました、超高速NGS解析サーバです。

このサーバが韓国の大手ライフサイエンス企業に採用されたということは、それだけ信頼があるということ。

超高速なのは間違い無いです。
例えば、HiSeq2000のペアエンドデータの解析の場合、FastqのマッピングからVCFまで、30~100カバレッジ程度であれば、長く見積っても1時間もかかりません。
カタログなどで30xが20分、とありますが、あながちチャンピオンデータでも無いです。

BCLからFastqへのConvertについても、HiSeqの1レーン程度のデータ量であれば数分。
ちょっとあいまいな言い方ですが、データ量によります。でも10分程度と見ていれば大丈夫です。

さて、ここまで速いと、信じられないと思います。
やっぱり実機を見たいですよね。

用意しました!

順調に行けば、2月23日(火)の、「第二回PacBio現場の会」ワークショップ@秋葉原、でお披露目できるはずです。

見たいかた、速さを実感したいかた、は、PacBioに関係なくても是非この機会にワークショップにご参加下さい。
もちろん無料セミナーです。

参加はこちらからご登録下さい。

「第二回 PacBio現場の会」ワークショップセミナー [PBWS]
2/23 (火) 参加無料 10:15-17:30(9:45受付開始。終了時間は若干変更の場合あり)

プログラムは、姉妹サイト「パックマンの挑戦」で2月上旬にアップデートする予定です。