16S 测序OTU
OTU是什么?
OTU(Operational Taxonomic Units),即操作分类单元。通过一定的距离度量方法计算两两不同序列之间的距离度量或相似性,继而设置特定的分类阈值,获得同一阈值下的距离矩阵,进行聚类操作,形成不同的分类单元。在16S测序中,将序列按照97%的相似性进行OTU聚类。
OTU聚类的意义
高通量测序得到的序列有几千万条,对每条序列都进行物种注释的话,工作量大、耗时,而且扩增、测序等过程中出现的错误会降低结果的准确性。在扩增子测序分析过程中引入OTU,首先对相似性序列进行聚类,分成数量较少的分类单元,基于分类单元进行物种注释,不仅简化工作量,提高分析效率,而且OTU在聚类过程中会去除一些测序错误的序列,如嵌合体序列,提高分析的准确性。
OTU聚类的方法
QIIME中OTU聚类的方法有三种:de novo、closed-reference、open-reference[1]。
de novo
测序序列根据overlap的方式进行拼接,例如利用HiSeq平台PE250(pair end,测序长度2*250bp)对16S的V3-V4区(465bp左右)测序,2*250bp>465bp,根据中间overlap的序列进行拼接,聚类。
优点
无参考数据库,有overlap即可进行;所有序列都进行聚类处理。
缺点
比对数据量大,耗时。
closed-reference OTU picking
与参考数据库比对,比对上的序列留下,比对不上的序列丢弃。
优点
目标测序区域拼接没有overlap的情况,例如,对V2-V4区测序,超出测序平台的读长,拼接时没有overlap的序列;大量数据聚类时也是非常高效的;与参考数据库比对可以得到更完美详细的进化树和物种组成。
缺点
丢弃数据库以外的新物种。
open-reference OTU picking
与参考数据库比对,比对不上的序列继而进行de novo比对。
优点
所有序列都进行比对、聚类;先closed-reference聚类,然后de novo聚类,运行速度快。
缺点
除数据库以外的新的微生物多的情况下或与参考数据库比对聚类失败时,耗时比较多。