针对第三代RNA测序长读段的比对算法研究2
摘要:随着第三代测序技术的日益成熟以及广泛应用,长序列比对成为正在兴起的研究领域。在转录组学研究中,将RNA长读段比对定位到参考基因组中,是对第三代RNA测序数据进行分析的关键一步,其准确性对差异基因表达、RNA编辑和融合基因的检测等后续分析有着至关重要的影响。然而,第三代RNA测序数据具有读段长、错误率高、高通量的特点,为RNA长读段比对算法设计带来了挑战。现有相关算法普遍在对结构复杂、规模较大的基因组上进行RNA序列比对准确率较低;其次,这些方法比对的很多位置与真实位置还存在偏差,导致外显子边界识别的准确率不高。因此,本文设计并实现了一套针对第三代RNA测序读段的比对算法流程,命名为WFMap。该方法通过索引和预比对策略进行全局搜索,首先找到RNA片段可靠的、大致的位置,再通过精细比对,对第一阶段比对的位置进行局部调整,最终实现准确地、高效地将RNA序列各个部分精确定位到基因组上。本文的主要研究方法如下:首先,通过使用minimizer的索引方法对参考基因组进行索引。根据计算自定义窗口内的minimizer构造minimizer的哈希索引。其次,采用基于种子-扩展策略的方法将读段和参考基因组进行预比对,减少算法下一步的搜索空间。通过区域选择、图映射、锚点扩展以及锚点过滤等步骤,锁定读段在参考基因组的大致位置。最后,采用基于WFA算法的精细比对。在此阶段,首先引入注释文件来识别外显子边界。此后,在最优锚点集合之间使用WFA算法,利用序列之间的同源性,将动态规划对角线得分递增等思想扩展到间隙-仿射模型,从而提高比对结果的准确性。在WFMap中,将WFA应用于RNA序列比对以及采用基因组注释精确地识别外显子边界是本文的两个创新点。实验结果表明,WFMap在不同数据集的各个性能评估指标中综合表现高于现有比对方法,在规模较小且剪接简单的数据集上表现最优,在规模较大且剪接稍复杂的数据集上具有一定的适用性。此外,在不同物种和不同测序技术(Pac Bio和ONT)的数据集上仍然表现良好,说明算法泛化性较好。通过可视化结果可以看出,在处理外显子边界上WFMap具有一定的优势。特别地,我们发现测序读段的错误率会影响比对算法的结果,当测序读段的正确率提高时,比对算法的结果也会随之提高。本文对长RNA序列比对中存在的问题和解决方案进行了深入地探索,为后续相关算法的开发提供了新思路。 还原
- 专辑:
基础科学;信息科技
- 专题:
生物学;计算机软件及计算机应用
- DOI:
10.27049/d.cnki.ggldc.2022.000196
- 分类号:
TP311.13;Q811.4
导师:
张艳菊;
学科专业:
软件工程
硕士电子期刊出版信息:
年期:2023年第02期网络出版时间:2023-01-16——2023-02-15
posted on 2023-05-31 09:32 王闯wangchuang2017 阅读(97) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具