Build Transcript Reference Index(构建转录本参考索引)

分析模块,输入转录本序列文件(fasta格式),以及基因ID与转录本ID关系文件。建立Bowtie/Bowtie2比对和RSEM/eXpress表达量计算所需的转录本参考索引文件。

!!对于主要物种,软件团队从Ensemble网站上,下载并整理了对应物种的转录本序列文件,和基因ID与转录本ID关系文件。访问,VG软件官方网站:(http://www.vgenomics.cn/),进行下载。


输入:


1、fasta格式的转录本序列文件。

示例:

>ENSDART00000164359

ATGAAGGTCGAGCTGTGCAGTTTTAGCGGATACAAAATCTATCCCGGTCACGGCCGGCGATACGCCAGGA

TTGACGGAAAGGTTTTCCAGTTCCTCAATGCCAAATGTGAGTCTGCGTTTCTGTCCAAGAGGAACCCGAG

……

>ENSDART00000166393

ATGGCGGATCCGGTGCTGCAGATGCCGAATCACAGAGGTCCGGGGGTTTTAGACCTGTCGGCTCGGGGTC

TGCAGCGGCTGGAGCCTCAGCTGTTCCGCCCGGATTCACACACACACACCCTGATCCTGGATCAGAACCA

……


2、制表符分隔的基因ID与转录本ID关系表,文本文件。其中,第一列为:基因ID,第二列为:对应的转录本ID(转录本ID与fasta文件中的转录本序列ID一致)。

示例:

ENSDARG00000000001           ENSDART00000000004

ENSDARG00000000001           ENSDART00000169788

ENSDARG00000000002           ENSDART00000000005

ENSDARG00000000018           ENSDART00000138183

ENSDARG00000000019           ENSDART00000124452

ENSDARG00000000068           ENSDART00000000069

ENSDARG00000000068           ENSDART00000136272

ENSDARG00000000069           ENSDART00000000070

ENSDARG00000000069           ENSDART00000134964

ENSDARG00000000069           ENSDART00000140891


输出:


Bowtie/Bowtie2比对和RSEM/eXpress表达量计算所需的转录本参考索引文件(fasta格式)。

注:假设输出为trans_index.fasta,则索引由以下后缀的文件组成,包含:

trans_index.fasta(fasta格式的转录本序列文件)

trans_index.fasta.bowtie.1.ebwt

trans_index.fasta.bowtie.2.ebwt

trans_index.fasta.bowtie.3.ebwt

trans_index.fasta.bowtie.4.ebwt

trans_index.fasta.bowtie.ok

trans_index.fasta.bowtie.rev.1.ebwt

trans_index.fasta.bowtie.rev.2.ebwt

trans_index.fasta.bowtie2.1.bt2

trans_index.fasta.bowtie2.2.bt2

trans_index.fasta.bowtie2.3.bt2

trans_index.fasta.bowtie2.4.bt2

trans_index.fasta.bowtie2.ok

trans_index.fasta.bowtie2.rev.1.bt2

trans_index.fasta.bowtie2.rev.2.bt2

trans_index.fasta.gene_trans_map

trans_index.fasta.RSEM.grp

trans_index.fasta.RSEM.idx.fa

trans_index.fasta.RSEM.n2g.idx.fa

trans_index.fasta.RSEM.rsem.prepped.ok

trans_index.fasta.RSEM.seq

trans_index.fasta.RSEM.ti

trans_index.fasta.RSEM.transcripts.fa



分析模块引用了Bowtie-0.12.7软件(http://bowtie-bio.sourceforge.net/index.shtml)。

分析模块引用了Bowtie2-2.1.0软件(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)。

分析模块引用了RSEM-1.2.26软件(http://deweylab.github.io/RSEM/)。

分析模块引用了eXpress-1.5.1软件(http://bio.math.berkeley.edu/eXpress/)。


相关文献如下所示:

Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol 10:R25.

Langmead B, Salzberg S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 2012, 9:357-359.

Bo Li and Colin N Dewey. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics201112:323.

Roberts A and Pachter L (2012). Streaming fragment assignment for real-time analysis of sequencing experiments. Nature Methods.