Usearch otu cluster and mapping(OTU聚类和丰度计算)

分析模块,输入每个样品经过Trimmomatic剪切和过滤、FLASH拼接后的FASTA序列文件,运行得到OTU Table文件和OTU代表序列文件。

OTUOperational Taxonomic Units)是在系统发生学或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,属,种、分组等)设置的同一标志。要了解一个样本测序结果中的菌种、菌属等数目信息,就需要对序列进行归类操作(cluster)。通过归类操作,将序列按照彼此的相似性分归为许多小组,一个小组就是一个OTU。可根据不同的相似度水平,对所有序列进行OTU划分,通常在97%的相似水平下的OTU进行生物信息统计分析。

分析模块封装了Usearch软件,具体分析步骤如下所示:

Ÿ  Usearch -derep_prefix命令:对优化序列提取非重复序列,便于降低分析中间过程冗余计算量。

Ÿ  Usearch -sortbysize命令:去除没有重复的单序列。

Ÿ  Usearch -cluster_otus命令:按照97%相似性对非重复序列(不含单序列)进行OTU聚类,在聚类过程中去除嵌合体,得到OTU代表序列文件。

Ÿ  Usearch -usearch_global命令:将所有优化序列mapOTU代表序列,选出与OTU代表序列相似性在97%以上的序列,生成OTU Table文件。

输入:

Trimmomatic剪切和过滤、FLASH拼接后的FASTA序列文件。

注:根据需要,在分析模块参数设置界面,动态增加或减少输入文件,并设置对应序列文件的样品名称。

输出:

1OTU Table表格文件

OTU ID     10     11     12

OTU1        10842       7265         11259

OTU2        6660         5505         7994

OTU3        3212         1769         7230

OTU4        4143         2548         2328

2OTU代表序列文件

>OTU1

GTGGGGAATATTGGACAATGGGCGCAAGCCTGATCCAGCCATGCCG ……

>OTU2

GTAGGAATCTTCGGCAATGGACGAAAGTCTGACCGAGCAACGCCG ……

>OTU3

GTGGGGAATATTGGACAATGGGCGAAAGCCTGATCCAGCAATGCCG ……

……

分析模块引用了Usearch v8.1.1861软件http://www.drive5.com/usearch/manual/)。

相关文献如下所示:

USEARCH and UCLUST algorithms

Edgar,RC (2010) Search and clustering orders of magnitude faster than BLAST, Bioinformatics 26(19), 2460-2461. doi: 10.1093/bioinformatics/btq461

UCHIME algorithm

Edgar,RC, Haas,BJ, Clemente,JC, Quince,C, Knight,R (2011) UCHIME improves sensitivity and speed of chimera detection, Bioinformatics doi: 10.1093/bioinformatics/btr381 [PMID 21700674].

UPARSE algorithm

Edgar, R.C. (2013) UPARSE: Highly accurate OTU sequences from microbial amplicon reads, Nature Methods [Pubmed:23955772, dx.doi.org/10.1038/nmeth.2604].