「三代组装」使用Pilon对基因组进行polish

对初步组装进行polish

 

以FASTA和BAM文件作为输入,根据比对结果对输入的参考基因组进行提高,包括

  • 单碱基差异
  • 小的插入缺失(indels)
  • 较大的插入缺失或者block替换
  • 填充参考序列中的N
  • 找到局部的错误组装

最后输出polish后的FASTA文件

 

利用第二代数据和第三代数据进行混装(Hybrid assembly),这种方法充分发挥了第二代数据质量高和第三代数据片段长的优势,组装出来的结果质量普遍比较高。混装策略的其中一种是先用第二代数据对第三代片段进行纠错,然后将第三代长片段组装成contigs,最后基于第二代的mate-paired数据生成scaffolds,如Pilon[41]软件支持该方法。2016年Jeong-Sun等[42]使用后一种方法完成了韩国人基因组的组装,组装完成之后的contigs和scaffolds N50分别达到17.9 Mb和44.8 Mb。

 

consensus得到的fa与consensus+pilon得到的fa, 由于N50反映的是序列的长度,不能反映polion所做的修改单碱基差异等提升效果。Busco理论上可以反映提升效果,局部错误纠正后理论的busco值应该更大了。

 

参考来源:

https://www.jianshu.com/p/cceeb7d1f413

卢鹏, 金静静, 李泽锋, 等. 基于第三代测序技术的基因组组装方法及其在烟草中的应用. 烟草科技, 2018, 51(2): 87-94.

 

posted on 2019-09-23 11:43  BPSO_mynotes  阅读(2645)  评论(0编辑  收藏  举报

导航