2011年4月21日木曜日

SAMMate : RNA-Seqの解析簡単フリーツール

SAMMate (http://sammate.sourceforge.net/) というフリーの、RNA-Seq解析ツールがあります。
これは、Windowsで動きます。 GUI自体も難しい操作は必要なく、非常にシンプルです。
僕はこういうソフトが好きです。

先ずは上のサイトからEXEをダウンロードしましょう。 WinもMacも今最新のがv2.5です。
適当なフォルダ内で解凍すると、こんなファイル群ができます。
SAMMate.exeをダブルクリックすると、起動します。
起動しない時は、必要なバージョンのJavaが入っていないせいかもしれません。詳しくは先のサイトからダウンロードできるManualに書いてあります。
起動するとこの画面が出ます。

SAMMateを使うには、
1.SAMフォーマットのマッピングファイルと、
2.マッピングに使ったゲノムのGTFアノテーションファイル
が必要です。

例えばUCSCのHG18をリファレンスにBowtieか何かでマッピングして、SAMファイルを作る。
そのゲノムに合ったGTFフォーマットのアノテーションファイルを、ダウンロードしてくる。
SAMファイルとGTFファイルを同じディレクトリに入れて、SAMMateからその場所を "Open" します。
そして、その2つのファイルを右クリックして "Working Space" に移動します。
あとは、 "Run" するだけ。

デモデータも用意されています。 "examples" のディレクトリを開いて、とりあえず2つのファイルをWorking Spaceに移動してRunしてみましょう。

結果はこんな感じのリストです。
これは遺伝子の発現を示したリストです。 詳細説明はマニュアルに任せるとして、転写産物ごとのリード本数、FPKMなどが計算されています。

デモデータではない、実際のNGSデータをUCSCのゲノム配列にマップした2GbくらいのSAMファイルと、70MbくらいのGTFファイルを使ってSAMMateをRunしたところ、メモリ3Gb、Windows7の私のPCで約20分かかりました。 計算中は他のソフトはほぼ動きません。

SAMファイルを入れていたフォルダには、遺伝子の発現値がExcelでも保存されています。
あと、Wigファイルというものも作られます。
これは、UCSCのゲノムブラウザ上に表示することのできるファイルフォーマットです。
Custom Trackという機能を使うと、このwigファイルを表示することができます。

この絵の一番上の山みたいなグラフがwigファイルの表示結果です。 発現量を示しています。
すぐ下のmRNAのExonの場所とほぼ一致するのがわかりますね。

SAMMateにはあと2つ、シンプルな機能があります。
SAMのソートと、SAM <--> BAM 変換です。
これも、SAMtoolなどでもできるのですが、コマンドラインが嫌いという方でも簡単にできるのがいいですね。

最初にも言いましたが、こういうシンプルなソフトは大好きです。
ひとつのソフトにあまり多くを期待するな! という作者のポリシーが見えてきそうです。

0 件のコメント:

コメントを投稿