基于MECAT的长读长对相似基因组比对算法的研究与实现
摘要:基因测序的意义是使人类从根本上认知疾病发生的原因,做到正确的治疗疾病、尽早的预防疾病。例如肿瘤和红斑狼疮等疾病都是和基因变异有关,如果能过通过测序技术知道变异点,对精准治疗,攻克难题有重大意义。第三代测序技术是Pac Bio公司的Single Molecule Real-Timesequencing technology(SMRT)技术和Oxford Nanopore Technologies(ONT)的纳米孔单分子测序技术。测序技术测得的序列长度为10kbp-15kbp,测序成本低,序列平均错误为15%,但无偏向错误,可扩展应用领域,我们把三代测序得到的序列称为长读长。MECAT算法是针对三代测序技术的一种比对方法,该方法能够快速的将长读长比对到基因组上,但是比对结果中碱基数量较少覆盖度低。本文对MECAT算法提出两种优化方法,作者是利用长读长和相似基因组的区间差异以及长读长是来自基因组上的唯一位置这两个特性进行优化的。算法优化主要分为两个模块:(1)基于相似参考基因组与长读长的差异,提出了相似度的概念。首先我们在基因组上划分区域。计算基因组上区域和长读长的相似度,把计算出的相似度加入MECAT的计算候选比对部分,从而更改比对中心候选位置,促使更多的长读长更好的比对到基因组上。(2)作者利用已经出现的比对结果进行冗余结果过滤。比对结果中会出现长读长一个区域比对到相似基因组多个区域的情况,根据长读长在基因组上多个比对区域之间的距离两两计算距离比进行分值计算,选择最可靠的比对信息。在目前已有的数据实验显示中,大肠杆菌碱基比对数量对于MECAT算法提高4%-8%,覆盖度提高9%-12%。酵母菌碱基比对数量提高19%-130%,覆盖度提高5%左右。拟南芥菜碱基比对数量提高22%-25%,覆盖度提高20%-30%。多组实验证明我们对MECAT比对算法优化实现了良好的比对效果。 还原
基金资助:
- 专辑:
基础科学
- 专题:
生物学
- DOI:
10.26944/d.cnki.gbfju.2020.001418
- 分类号:
Q811.4
导师:
包尔固德;
学科专业:
软件工程
硕士电子期刊出版信息:
年期:2021年第03期网络出版时间:2021-02-16——2021-03-15
posted on 2023-05-31 09:21 王闯wangchuang2017 阅读(53) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具