wangchuang2017

15675871637 WeChat wangchuang2022 QQ 2545804152 wangchuang2017@hunnu.edu.cn

基于长读的基因组重复序列查找技术研究

基于长读的基因组重复序列查找技术研究

郭睿

深圳大学

摘要:基因组中出现两次或者两次以上基本相同的序列称为重复序列。重复序列信息可以用来可以分析物种的进化,减少基因比对歧义,降低序列拼接数据缺失。与标准重复序列库对比,基于短读序列数据的重复序列查找技术得到的结果并不完整,平均长度较短。长读数据平均长度较长,比短读数据具有更多的信息,可以包含更长、更完整的重复序列。本研究利用长读数据查找重复序列,得到了更长、信息更全的重复序列。研究基于长读数据的重复序列查找技术,主要创新如下:1)提出基于长读数据的查找重复序列技术,得到比基于短读方法更长更完整的重复序列。该方法首先通过比较序列索引的MHAP方法,计算长读数据之间的重叠信息。然后构造重叠网络,其中网络顶点与边分别代表长读信息和重叠长度。之后再利用模块度最优化方法聚类网络节点,得到具有重叠多的读数基团。最后通过分析读数重叠长度的变化,得到基团中代表性读数长度,将其对应的重复序列作为基团代表性重复序列。2)提出RepPeak重复序列查找技术,通过改进RepLong,解决网络基团分辨率的问题,结果具有更好的解释性。该方法先以已有序列或通过Canu拼接长读数据得到的序列作为参考序列。之后分析长读数据与参考序列的比对结果,计算每一个参考序列位点的深度变化,得到深度变化大的位置。再对深度变化位置进行合并和去除操作,从参考序列中抽取对应的序列,即得到重复序列。利用基于长读数据的重复序列查找技术分析果蝇和人类基因数据,可以得到比基于短读技术更长的重复序列,包含了更完整的标准重复序列库信息,弥补了短读数据片段化,包含信息不完全的问题。充分利用了长读读长的优势,不需要拼接读数就可以得到更完整的重复序列。 还原
  • 专辑:

    基础科学

  • 专题:

    生物学

  • 分类号:

    Q811.4

导师:

李炎然; 朱泽轩;

学科专业:

计算机科学与技术

硕士电子期刊出版信息:

年期:2019年第07期网络出版时间:2019-06-16——2019-07-15

posted on   王闯wangchuang2017  阅读(86)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

导航

统计

点击右上角即可分享
微信分享提示