基于深度学习的第三代DNA测序数据纠错算法的研究
摘要:基因测序是人类了解遗传信息的主要手段,在癌症研究、遗传性疾病检测以及传染病防治等领域发挥重要作用。第三代基因测序技术具有读段长、测序区域均匀、成本低以及高通量的优点,因此被广泛的应用于基因组和转录组研究中。然而,这种技术的固有缺陷在于它产生的结果存在极高的错误率,通常会达到6-15%,严重影响如测序读段在参考基因组上的定位以及基因序列组装等下游分析。目前已有许多采用计算性的方法降低数据错误率的手段,根据是否使用额外的二代测序数据分成混合校正策略和自校正策略两种。其中,自校正策略无需额外的二代测序,具有更好的易用性。这些自校正方法虽然使用的算法原理不同,但本质上都只使用单个位置上碱基出现的频率进行校正,没有利用序列前后的关联信息,因此较为依赖输入的数据量,在低测序深度时效果不佳。同时,由于对计算资源要求很高,大部分方法对大型基因组测序数据纠错的计算需求无法负荷。针对以上不足,本文针对如何将深度学习应用于第三代DNA测序数据的自校正展开了深入的研究。首先从开源项目和公共数据库全面收集数据,制作了大肠杆菌、酿酒酵母、黑腹果蝇、拟南芥和人类五个物种的数据集。其次,分析数据集的读段长度和错误类型比例,确定纠错任务的重点目标为长度小于30000bp的读段上的插入和删除两种类型的错误。然后,考虑到DNA测序数据纠错任务与传统深度学习任务的评价标准区别较大,本文提出了一种对纠错结果的自动化评估方法。该评估方法从纠错性能、资源需求和下游应用三个方向考虑,包含了十个评价指标,最终实现为一个开源软件,命名为LoRSCA(Long Reads Self-Correction Assess)。接着提出了一种序列编码方法,综合碱基序列、测序质量和比对质量三种数据信息,将一维序列数据编码成尺寸为21*4*3的二维图像,以便模型进行特征提取。最后,构建了一个基于多任务学习的卷积神经网络,命名为DeepSC,采用多分支卷积和跳层连接的设计思想,用于解决三代测序的自纠错问题。在与现有的十种纠错算法的比较评估中,DeepSC成为仅有的四个能在人类基因组上顺利运行的算法之一,并在低测序深度情况下在所有五个物种上取得了敏感度、输出深度和基因组覆盖率的领先。本文将深度学习方法引入处理三代DNA测序数据纠错问题,改善了计算性方法在低测序深度数据上的纠错性能,为未来的纠错算法设计提供新思路。 还原
- 专辑:
基础科学;信息科技
- 专题:
生物学;自动化技术
- DOI:
10.27049/d.cnki.ggldc.2022.000726
- 分类号:
TP18;Q811.4
导师:
张艳菊;
学科专业:
计算机科学与技术
硕士电子期刊出版信息:
年期:2023年第02期网络出版时间:2023-01-16——2023-02-15
posted on 2023-05-31 09:33 王闯wangchuang2017 阅读(142) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具