基于长读数的序列组装方法研究与应用
摘要:长读数因为在跨过基因组重复区方面具有卓越的表现,因此逐渐得到了广大研究者的青睐。通过分析和挖掘测序技术产生的长读数的数据特征,研究基于长读数序列组装方法,实现高速度、高准确性、高连续性的基因组组装,对支持和推动生命科学中一系列重要的基础性研究具有重大意义,如:基因层面的疾病确诊;发现潜在疾病的发病风险;对个体化用药提供指导;指导生育健康的下一代等等。但是来自第三代测序技术的长读数,虽然测序长度长,但是测序错误率高,而基因组重复区域等原因,为基于长读数的基因组装研究带来了很大的阻碍。针对长读数的数据量巨大,读数长,但是错误率高的特点,本论文在基因组组装有两个重要步骤做出了研究和改进,第一个是将测序技术产生的DNA序列进行重叠检测;第二是将contigs组装成scaffolds的过程。通过对长读数数据集本身特征,k-mer特征统计分析,以及对相关算法的研究,本论文提出了基于k-mer特征分布的长读数重叠检测算法,该算法根据k-mer分布特征筛选出可靠k-mer,在使用二阶段策略,最终确定重叠区间。通过对scaffolding算法的研究和分析,以及对contigs数据集和长读数数据集的研究分析,本论文又提出了基于长读数和contigs分类的scaffolding算法,该算法充分发挥了长读数特性,并与contigs分类方法相结合,将contigs分为唯一的contigs和模糊的contigs,利用唯一的contigs创建scaffold图,此方式不仅简化了scaffolding图的复杂性,还提高的组装的准确性。针对这两种算法,本文均使用两种以上的同类工具进行了性能比较,基于k-mer特征分布的重叠检测算法,使用准确率,召回率和F1-score三项指标与MHAP算法和minimap2算法进行了比较。基于长读数与contigs分类的scaffolding算法与同类的工具SSPACE-Long Read、LINKS和np Scarf进行了性能比较,并从contigs分类的有效性和重复性感知框架进行了分析比较,结果均表现良好。这两种方法工具的提出,为序列组装的研究提供了新的思路和解决方案。 还原
基金资助:
国家自然科学基金61972134,基于长短读数结合的结构变异检测方法研究; 国家自然科学基金61602156; 河南省科学技术研究计划项目192102210118;
- 专辑:
基础科学
- 专题:
数学;生物学
- DOI:
10.27116/d.cnki.gjzgc.2020.000615
- 分类号:
Q811.4;O157.5
导师:
罗军伟; 霍占强; 王硕;
学科专业:
软件工程(专业学位)
posted on 2023-05-31 09:23 王闯wangchuang2017 阅读(27) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具