近年、次世代シークエンサーのおかげで非モデル生物においてもトランスクリプトームやゲノム解析が行われています。
トランスクリプトームやゲノム解析の論文がでているのに、NCBIで検索しても配列が全然でてこないことがもっぱらです。
そんなときはseqence read archiveを探してみると論文が出ているものについてはSRAファイルが登録されています。SRAファイルは、要は次世代シークエンサーの出力ファイルです。
ですので、linux マシンがあれば自分で次世代シークエンサーの出力ファイルを解析できれば、必要な情報を得ることができます。特に、ディジェネレートプライマーを使ってホモロジークローニングしようとしている時には非常に強力なデータになります。
SRAファイルは
DDBJのDRA search
http://trace.ddbj.nig.ac.jp/DRASearch/
NCBIのSRA
http://www.ncbi.nlm.nih.gov/sra
から検索、ダウンロードできます。
検索してみると意外と使えるデータがあります。
SRAファイルはそのままでは使えないのでSRA tool kitを使ってfastqファイルに変換してあげます。
SRA tool kit はNCBIからダウンロード
http://eutils.ncbi.nih.gov/Traces/sra/?view=software
使い方はWolf Earsとショートリードの憂鬱の記事がわかりやすいです。
http://g86.dbcls.jp/~yag/wordpress/archives/959
http://shortreadbrothers.blogspot.jp/2011/08/sra-toolkit-v212.html
僕のパソコンはcent OSの64bit版なのでそれをダウンロード
tar -xvf sratoolkit.2.3.4-2-centos_linux64.tar
で解凍
SRAファイルをfastqファイルに変換するにはbinの中のfastq-dump
-A で出力するファイルの名前を指定
-split-files でRとFに分けて出力
./bin/fastq-dump -A SRA -split-files SRAfile.sra
これで
SRA.fastq_1
SRA.fastq_2
が出力されます。
あとはこのfastqファイルをアッセンブルしてあげます。
アッセンブルについてはまた今度