基因组 de novo 组装原理

Falcon软件的组装流程

sub-reads就是机器出来的reads经过处理后的子reads，方便软件处理；

因为第三代测序是单分子测序，读长大，reads长，错误率高，单条reads的正确率只有85%，必须进行校正。

如果测序深度足够，那么就可以构建overlap，根据概率学原理，可以进行校正。

cutoff就是扔掉长度不足的reads（例如：扔掉10K以下的reads），因为reads太短没有多大意义，增加计算量，校正时，不能切掉太多的reads，所以其cutoff值较小；预组装时，短reads该利用的信息已经利用完了，可以扔掉了，所以其cutoff可以设置得稍微大些，减少计算量。

因为错误校正后的reads变化非常之大，必须重新进行overlap，-e是一致性参数，就是精度的意思，组装之前，因为错误率较高，可以容忍较低的一致性0.70；组装时，reads已经校正好了，所以对一致性较高，调到了0.96.

为了砍掉一些没有必要的计算，减少计算量，只选择最好的n个overlap进行组装，过滤掉重复序列。

就是根据overlap一个一个的把reads连起来，从前到后，因为重复序列的原因，必然会组成图（图会有各种形态）

然后根据一定的原则，去掉图中一些没有必要的边，选择一条最优的路径，就可以组成我们想要的最终的contigs。

posted @ 2016-06-15 23:40 Life·Intelligence 阅读(2205) 评论(0) 收藏举报

刷新页面返回顶部