基于半监督学习的单体型组装算法
摘要:单体型组装(Haplotype Assembly)是根据测序得到的DNA片段通过各种模型算法来重建出生物个体的单体型。随着人类基因组计划(Human Genome Project,HGP)的逐渐完成,人们已经认识到个体之间基因序列的差异是造成个体之间各种表型差异的主要原因,如发色、体型、罹患疾病的不同风险程度等。因此分析个体的单体型在遗传领域有非常重要的意义,其主要应用有疾病诊断、药物研究等。如果能仅通过生物手段就获得个体正确的完整DNA序列,那么单体型组装问题是容易解决的。然而,在实际过程中,由于生物实验的的限制,通常仅能得到一些较短的DNA片段,并且实验中会不可避免地发生一些测序错误。因此,根据一些有测序错误的DNA片段并结合计算机技术来组装出错误最少甚至是正确的个体单体型既是目标,也是挑战。机器学习领域的半监督学习策略是一种科学利用无类标签数据的学习模式,由于有标签样本仅占少数,因此结合少量有标签数据和大量无标签数据来提高模型的学习性能是非常有必要的。基于以上,本文提出两种结合半监督学习的单体型组装算法。K均值算法(K-Means)是机器学习中非常经典的聚类算法,算法在迭代过程中...更多
- 专辑:
信息科技
- 专题:
自动化技术
- DOI:
10.27137/d.cnki.ghusu.2020.000288
- 分类号:
TP181
导师:
谢民主;
学科专业:
软件工程(专业学位)
硕士电子期刊出版信息:
年期:2021年第01期网络出版时间:2020-12-16——2021-01-15
文章目录
- 摘要
- ABSTRACT
- 第1章 绪论
- 1.1 研究背景及意义
- 1.2 生物学理论基础
- 1.2.1 染色体
- 1.2.2 DNA与基因
- 1.2.3 单体型与基因型
- 1.3 单体型组装问题
- 1.4 研究现状
- 1.5 主要研究内容
- 第2章 基于半监督学习的单体型组装K均值算法
- 2.1 半监督学习策略
- 2.1.1 半监督学习策略的生物信息领域应用
- 2.2 K均值算法
- 2.2.1 K均值算法原理
- 2.3 基于半监督学习的单体型组装K均值算法
- 2.3.1 预处理阶段
- 2.3.2 基于半监督学习的K均值聚类阶段
- 2.3.3 单体型组装阶段
- 2.4 本章小结
- 第3章 基于半监督学习的单体型组装K最近邻算法
- 3.1 K最近邻算法
- 3.1.1 K最近邻算法原理
- 3.2 基于半监督学习的单体型组装K最近邻算法
- 3.2.1 预处理阶段
- 3.2.2 基于半监督学习的SKNN分类阶段
- 3.2.3 单体型组装阶段
- 3.3 本章小结
- 第4章 实验设计与结果分析
- 4.1 模拟数据的生成
- 4.2 模拟数据实验结果与分析
- 4.3 真实数据实验结果与分析
- 4.4 本章小结
- 总结与展望
- 1 总结
- 2 展望
- 参考文献
- 致谢
posted on 2023-06-11 19:24 王闯wangchuang2017 阅读(23) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具