用BUSCO来评估基因组完整性

run_BUSCO.py -i [组装的文件.fasta]  -l  [数据库文件夹] -o [输出文件名] -m [评估模式] [其他一些选项]

BUSCO评估结果:
一般情况下对于完整度较好的基因组组装结果来讲,Complete and single-copy越多越好,而Complete and duplicated和Missing越少越好,对于Fragmented也尽可能地少一些。

真实项目中,Complete BUSCOs (C) 的比例通常都能达到 80% 以上。


BUSCO通过同源基因数据库基因完整度来评价基因组组装结果。

BUSCO首先构建了不同物种的最小基因集,然后使用HMMER,BLAST,Augustus等工具分析组装结果中的同源基因,从而定量评估组装是否完整。

busco -i assembly/spades/contigs.fasta -o result -l /home/wangjw/db/busco/bacteria_odb9 -m genome -f

运行结果会在当前目录下的run_result生成一些列文件,其中的short_summary_result.txt内容如下

# Summarized benchmarking in BUSCO notation for file assembly/spades/contigs.fasta
# BUSCO was run in mode: genome

    C:98.6%[S:98.6%,D:0.0%],F:0.0%,M:1.4%,n:148

    146 Complete BUSCOs (C)
    146 Complete and single-copy BUSCOs (S)
    0   Complete and duplicated BUSCOs (D)
    0   Fragmented BUSCOs (F)
    2   Missing BUSCOs (M)

C值表示和BUSCO集相比的完整度,M值表示可能缺少的基因数,D则是重复数。


参考来源:
https://www.jianshu.com/p/5041460f7a5d
https://xieduo7.github.io/2018-07-15-%E7%94%A8BUSCO%E6%9D%A5%E8%BF%9B%E8%A1%8C%E5%9F%BA%E5%9B%A0%E7%BB%84%E5%AE%8C%E6%95%B4%E6%80%A7%E8%AF%84%E4%BC%B0.html
http://blog.sciencenet.cn/blog-3406804-1164809.html
http://www.genek.tv/article/29
https://zhuanlan.zhihu.com/p/38317398

posted on 2019-09-18 20:31  BPSO_mynotes  阅读(5344)  评论(0编辑  收藏  举报

导航