基因组组装结果质量评估

参考:【干货】基因组组装你了解多少? -- 诺禾致源


动植物基因组de novo工作,其组装指标的好坏直接影响着整个基因组的质量。而评估基因组组装结果,contigN50和scaffoldN50是第一指标,即contig/ scaffoldN50:将contig/scaffold长度从长到短进行排序并累加,当累加和达到contig/scaffold总长度的50%的时候,最后参与加和的那一条contig/scaffold长度即为contig/ scaffoldN50的长度。一般来说,contig/scaffoldN50越长,表示组装结果越好。

但是,N50指标高就意味着组装结果就一定可靠吗?

不一定!将一些不相关的reads或者contig错误的连接为scaffold,一样可以达到很高的scaffoldN50。

目前高水平文章发表,组装指标固然是一方面,但真正决定文章发表档次的,是生物学故事是否足够完美,有亮点。我们知道,后续分析依赖的基础便是组装得到的基因组,因此,不可靠的组装结果,对基因组后续分析会造成很大的困扰,甚至会得出错误的生物学结论。

那么,如何才能检验一个基因组组装结果的可靠性呢?

1、 序列一致性评估:

基因组是通过reads组装得到,这一步,是将reads比到基因组上,验证reads对基因组的覆盖情况,用于评估组装的完整性以及测序的均匀性。较高的mapping rate(90%以上)以及coverage(95%以上)认为组装结果和reads有比较好的一致性。

2、 序列完整性评估:

所谓完整性评估,即评估组装得到的基因组对基因区的覆盖程度,一般需要借助RNA方面的证据进行评估,如EST数据或RNA reads。由于用来评估的RNA方面证据不同,得到的比例也会有差别。一般来说,50%的scaffold覆盖基因的95%以上,85%的scaffold覆盖基因的90%以上,认为组装较完整。

3、 准确性评估:

通过全长BAC序列,可以通过与组装结果的比对,对组装结果的正确性进行验证,从BAC序列和scaffold是否具有较好的一致性来判断组装质量。

4、 保守性基因评估:

即根据广泛存在于大量真核生物中的保守蛋白家族集合(248个core gene库),对组装得到基因组进行评估,评估组装基因组中的core gene的准确性和完整性。可以通过该物种和同源物种cegma的比例,判断保守基因组装情况。


通过以上四个方面基本上可以对基因组组装结果有个大致的评估,以2015年4月诺禾发表的基因组文章陆地棉为例,来分析一下组装出来的基因组可靠性评估:

1. 组装结果基本信息统计

image

可以看到组装出来基因组为2.4G,cover陆地棉基因组96%,(Survey预估基因组为2.5G),contigN50为34K, scaffoldN50为1.6M,定位到遗传图谱上的scaffold有1.9G(9%),其中A亚种contigN50为30.7K,scaffoldN50为1.4M,D亚种contigN50为47.2K,scaffoldN50为2.5M。

2. 一致性评估:

image

从reads的mapping率以及对基因组的coverage比率来看,有较好的一致性。

3. 完整性评估:

image

采用1 ,054 条G. hirsutum.全长mRNA序列进行完整性评估,可以看到有90%的mRNA被一条scaffold覆盖的比例为94%以上,即有94%的基因是组装完整的;有50%的mRNA被一条scaffold覆盖的比例为99%以上,即有99%的基因是组装出来的。说明组装版本有很好的完整性。

4. 准确性评估:

image

采用该物种的四条全长BAC序列对组装结果进行评估,红线代表BAC序列,蓝线代表scaffold序列,空白区代表scaffold上的gap区,橘黄色线代表BAC和scaffold比对上的区间块。从上图也可以看到组装结果和BAC序列有很好的比对结果,即说明组装有较高的正确性。

另外,从染色体角度,也可以验证组装结果,如下图所示,采用诺禾组装的四倍体棉花D亚组同已发表的JGI组织以及BGI组织发表的雷蒙德氏棉花进行全基因组比对,可以看到,a图,诺禾的组装版本与JGI组织组装得到的基因组有很好的共线性,众所周知,JGI组织发表的棉花基因组是采用Sanger测序,并进行多种验证的组装版本,具有很高的正确性和指导性,进一步说明诺禾的组装版本有很好的准确性。

image

5. 保守基因评估:

image

可以看到,组装得到240个core gene,其中有231个core gene是完整的。

综上,诺禾组装结果不但可以承诺高指标,并且有严谨的评估标准对组装结果进行评估,保证组装结果的准确性。

参考文献

Zhang T Z, Hu Y, Jiang W K,et.al. Sequencing of all otetraploid cotton (Gossypium hirsutum L.acc.TM-1)provides a resource for fibre improvement.

posted @ 2016-07-27 13:45  Life·Intelligence  阅读(16606)  评论(0编辑  收藏  举报
TOP