分箱软件之MyCC

  • 分箱的定义
    分箱(binning)指从微生物群体序列中将不同个体的序列(reads或contigs等)分离开来的过程。其扩展定义为,从群体序列中重新构建群体成员个体基因组的过程。但也有人将分箱定义为将微生物群体序列与产生这些序列的物种(或者更高一级生物分类单元)关联起来的过程,准确来说,该定义的分箱是一种特殊形式(taxonomic binning/profiling/assignment),多了个体的生物分类信息。


  • 分箱的对象
    分箱的对象可以是reads、contigs、scaffolds、基因四个特征单元的任意一个,但一般情况下很少对基因进行分箱,对contigs和scaffolds的分箱不加以区别。因此,分箱按照分箱对象的不同可以分为两类,一种是直接对环境样品测序产生的reads进行分箱的方法,另一种则是对环境样品序列的拼接结果进行分析分箱的方法。前者可以避免拼接过程中出现的错误拼接序列(misassembly)或者嵌合体序列(chimeric)的产生,但二代测序的短读长会直接导致序列比对过程中出现歧义。


  • 分箱的原理
    与已知物种信息序列的相似性;群体序列的组成成分的相似性;群体序列的测序覆盖度。



以下是使用分箱方法的一种宏基因组数据分析流程:


什么是MyCC?

MyCC是使用基因组序列特征和标记基因信息对宏基因组的contigs进行自动聚类的精准分箱方法。

MyCC的安装

MyCC的运行可行通过三个途径,分别是通过虚拟机软件MyCC.ova,Docker引擎加载镜像,下载Tool安装包在Linux目录下安装。
官方软件下载地址:
https://sourceforge.net/projects/sb2nhri/files/MyCC/

  • 1, MyCC.ova
    Use VirtualBox(
    https://www.virtualbox.org/) or VMware(http://www.vmware.com/tw) to import MyCC.ova.

  • 2, Docker Image 990210oliver/mycc.docker:v1
    Use docker to pull docker image and run.

  • 3, Tools.zip

以上三个方法,我都尝试过。
   
  方法1,我在本地计算机使用VitualBox导入MyCC.ova的,其默认的内存为8000M,但我计算机自身只有4096M的(4G)内存。所以我只分配了2000M,最后运行我的样品数据时因为内存不够,程序结束后只有log文件。
      方法2,要动用服务器的Root权限去安装。具体安装步骤如下:

方法3,会出现下面这种错误,应该是我没有把软件安装好吧,但是相关依赖的python包比较多,而且是需要2.7版本的,服务器本身又是低许多。所以我放弃了这种方法,如下。(只能说我太弱了~)

MyCC的学习

该软件关于如何具体使用在其说明文档上写得很清楚,而且是图文并茂,非常易懂。

以下是我的说明书学习笔记。
说明文档:

http://jaist.dl.sourceforge.net/project/sb2nhri/MyCC/manual%20of%20MyCC.pdf

发表文章软件流程图 :

我想参考比对文件可以用MEGAN分类注释产生~~

MyCC.py 10s.fasta -a 10s.depth.txt