gComm | 大语言模型在核酸研究中的应用

最近的进展证明了大型语言模型 (LLM) 在利用核苷酸信息解决生物学问题方面的能力。人们对探索 LLM 与基因组研究之间的潜在协同作用的兴趣日益浓厚。2025年2月,Genomics Communications 在线发表了中国农业科学院深圳农业基因组研究所赵程研究员团队题为 Large language model applications in nucleic acid research 的研究论文。回顾了已发表的基因组 LLM,并评估了它们在基因组注释、核苷酸结构预测和基因-基因相互作用预测中的应用。通过比较分析,讨论了 LLM 在解决复杂基因组研究问题方面的未来潜力。

图片

引言

核酸(包括 DNA 和 RNA)存储着代代相传的遗传信息。基因组是生物体内完整的遗传物质,为生长、发育、繁殖和细胞功能提供了蓝图。这些信息被组织成染色体,其中基因代表编码蛋白质或功能性 RNA 的特定 DNA 序列。此外,染色体还包含控制基因表达的调控元件,确保精确地调控基因活动的时间和空间。

大型语言模型(LLM)是基于 Transformer 架构构建的神经网络语言模型,特点是参数数量庞大。其在处理人类语言方面的成功可以归因于两个关键因素:第一,LLM 告别传统的概率模型,直接通过海量神经网络学习语言的内在模式,省去了概率模型复杂的推理过程;第二,部分 LLM 采用了多阶段学习策略,初始阶段在海量数据集上进行预训练,使模型能够充分捕捉语言信息的规律,后续阶段则针对特定任务对模型进行微调,实现持续优化。得益于优秀的模型设计和海量数据支持,LLM 可以进行流畅的自然对话,并高效地完成人类指令下的任务。

甚至在LLM出现之前,机器学习 (ML) 就已成为分析核酸数据的强大工具。深度学习 (DL) 通过 DeepGS、DNNGP、SoyDNGP 和Gxenet等方法显著改善了基因表达预测。研究人员还利用 ML 和 DL 模型来增强对调控元件的识别,包括 iPromoter-2L、CapsEnhancer、ClassifyTE、DeepTE、SilenceREIN 和iTerm-PseKNC。图神经网络已被有效地应用于识别疾病、预测核酸的细胞起源和分析 RNA 相互作用,使用模型包括 scMGCA、ncRNAInter、GCAN 和GCN-MF。虽然这些模型表现出很高的性能,但它们在参数和数据方面的规模相对有限,阻碍了它们在不同物种或任务之间有效推广的能力。

本文重点介绍了基于 BERT、GPT 和 Transformer 等架构的 LLM 及其在核酸研究中的应用。我们收集并评估了当前最先进的、在核酸序列上训练的代表性 LLM。重点介绍了基因组注释、调控元件预测和核酸结构预测等具体任务。此外,我们还讨论了阻碍基于 LLM 的核酸研究进一步发展的关键因素。本文全面总结了它们的优点和缺点,旨在为未来的研究方向提供有价值的见解。

基因组学大语言模型的进展

基因组大语言模型的开发遵循如图 1所示的三阶段流程。首先,从各种数据库(包括 NCBI、UCSC 基因组浏览器、NGDC 等)中整理出大量基因组数据。随后,该模型在该语料库上进行自监督预训练,然后对特定的下游任务进行微调。这将产生一个多功能模型,能够执行广泛的基因组分析,从基因表型预测到蛋白质结构预测。最后阶段涉及实验验证,以评估模型在现实生物场景中的性能。这些模型的底层架构主要基于 BERT 和 GPT,表 1提供了代表性模型的摘要。

图1 构建基因组大型语言模型的工作流程。

图1 构建基因组大型语言模型的工作流程。

表1 基因组分析中 LLM 的统计特性。所有模型主要可以分为两大类:BERT 启发式模型和 GPT 启发式模型。这些模型在原有 BERT 和 GPT 设计的基础上进行了修改和改进。

表1 基因组分析中 LLM 的统计特性。所有模型主要可以分为两大类:BERT 启发式模型和 GPT 启发式模型。这些模型在原有 BERT 和 GPT 设计的基础上进行了修改和改进。

标记化是根据预定义的词汇表将原始输入数据分解为各个标记的过程。然后,这些标记被转换成适用于机器学习模型的数值表示。鉴于其对计算效率的直接影响,LLM 的基因组序列标记化已引起广泛关注。DNABERT 和 DNABERT-2 率先开展这项工作,分别采用 k-mer 和字节对编码 (BPE) 来促进有效的基因组表示。后续的下游任务证明了 BPE 对基因组数据的优势。Nucleotide Transformer 利用更大的模型和数据集来提高性能,进一步扩展了 LLM 及其预训练语料库的规模。DNABERT、DNABERT-2 和 Nucleotide Transformer 均源自 BERT,经过各种下游任务的微调,在识别调控元件方面表现出色。 AgroNT、GenSLM 和 ProkBERT 已将 LLM 应用从动物基因组扩展到植物、SARS-CoV-2 和微生物。这些模型调整了其标记化策略以适应各种预训练数据集,包括基于密码子的基因标记化和较短核酸序列的局部上下文感知标记化。值得注意的是,虽然这些模型强调了 LLM 在下游任务中的能力,但 GROVER 独特地研究了 LLM 的预训练性能,揭示了它们在捕获基因组背景能力方面的固有局限性和偏差。

受 GPT 模型在自然语言处理领域的成功启发,DNAGPT、HyenaDNA、PlantCaduceus 和 PDLLM 相继问世。DNAGPT利用多目标学习来捕获不同的基因组特征,而 HyenaDNA 引入了隐式卷积来处理更长的 DNA序列。PlantCaduceus 通过状态空间模型进一步增强了模型架构,在各种下游任务上表现出更好的性能。PDLLM 在植物基因组上比较了不同的模型和标记方法,表明一项任务的最佳模型取决于具体的生物学问题。

表 1突出显示了不同模型在规模、数据集和下游任务方面的巨大差异。模型大小从 660 万到 250 亿个参数不等。虽然模型规模与训练数据和任务有关,但最佳规模和数据要求仍不清楚,特别是在基因组学中。与人类语言不同,基因组在标记化方面提出了独特的挑战,因此人们将重点放在处理长序列上。虽然扩展模型可以提高性能,如 Nucleotide Transformer 和 DNAGPT 所证明的那样,但 Evo 的方法表明更适度的扩展可能就足够了。模型大小、数据和计算资源之间的理想关系尚未完全了解。基因组大型语言模型通常比为人类语言设计的模型小,这主要是由于计算限制。随着计算机科学领域的继续快速发展,预计计算资源将有显著改善,从而促进更全面的探索和开发基因组学大型语言模型。

尽管现有模型对基因组注释做出了重大贡献,但它们主要限于转录水平分析和特定基因组区域的识别。为了充分利用这些模型的功能,研究人员开发了创新方法,如 megaDNA 和 Evo,它们专注于生成 DNA序列。通过采用针对基因组数据量身定制的架构,这些模型可以捕获跨越巨大基因组距离的复杂调控相互作用。这使得能够生成整个基因组片段,以及基于已知的 CRISPR-Cas 或转座子系统设计特定的遗传元件。

大型语言模型在植物科学和生物医学中显示出巨大的应用前景,这从它们在下游任务上的强劲表现就可以看出。通过对下游任务的微调,PlantCaduceus 成功识别出与玉米甜度相关的突变,这表明 LLM 在发现农作物性状相关变异方面具有巨大潜力。Nucleotide Transformer 通过其多阶段学习过程,可以识别与基因表达和基因组非编码区域甲基化变异相关的元素,从而在基因水平上洞察疾病的分子基础。此外,实验证据表明,Evo 设计的转座子系统表现出显著的生物活性,凸显了 LLM 对生物工程、新基因设计和药物发现的重要参考价值。

尽管取得了这些进展,但这些模型在多大程度上真正掌握了基因组数据的复杂性仍不确定。两个重大挑战阻碍了 LLM 在基因组学中的应用。首先,虽然这些模型可以在预训练期间处理大量基因组数据集,但完全捕捉遗传语言的细微差别却难以实现。其次,考虑到这些模型的预训练知识,目前尚不清楚它们是否能够在数据有限的情况下快速适应新任务。

用于注释基因组的大语言模型的进展

LLM 在辅助核酸注释方面显示出巨大的潜力。它们的应用涵盖各种各样的任务,包括基因识别、转录本和外显子/内含子注释、功能元素注释、功能 RNA 注释、蛋白质编码潜力分析、序列变异注释、基因组结构注释、功能注释和表达谱注释。然而,鉴于核酸与各种生物过程之间错综复杂的相互作用,LLM 难以完全捕捉这些相互作用,因此提高其在理解基因组类型和表型之间关系方面的性能仍然是研究人员关注的重点。我们汇编了一系列与核酸注释相关的任务,这些任务利用 LLM 作为框架。表 2-4总结了模型细节及其在这些任务上的表现。

表2. LLM 在核酸序列编码区中的应用。

表2. LLM 在核酸序列编码区中的应用。

表 3.  LLM 在增强子识别中的应用。

表 3. LLM 在增强子识别中的应用。

表 4.  LLM 在终止子和转座子识别中的应用。

表 4. LLM 在终止子和转座子识别中的应用。

LLM 与卷积神经网络 (CNN) 的协同集成已成为基因表达预测的强大范例。Enformer 是一种开创性的模型,它利用 CNN 处理原始基因组序列,然后利用 Transformer 架构提取特征之间的更深层关系。这种方法成功地识别了人类和小鼠基因组中增强子与受调控基因之间的联系,并改善了基因表达水平预测。在 Enformer 的基础上,Borzoi 进一步优化了 CNN 架构,使其结构更复杂,以捕获细胞和组织特异性的 DNA 序列变异,从而扩大了 RNA 测序预测覆盖范围。

LLM 可以通过学习启动子和基因的信息来预测基因表达水平。启动子作为转录起始位点附近关键的非编码元件,对基因表达有显著的影响,因此 LLM 能否在这一任务上胜过传统的深度学习方法值得探索。Vaishnav 等人开发了两种模型:纯卷积神经网络模型和基于 Transformer 编码器架构的模型。两种模型在预测基因表达水平方面都表现出优异的性能(Pearson R = 0.967−0.985)。然而,对比发现,基于 Transformer 的模型参数更少,从建模角度证明了其效率,并且能够更有效地捕捉启动子的内在特征。随后,CRMnet 、 Proformer 等模型进一步升级了模型框架,将更高效的特征提取结构纳入 LLM 框架,进一步提高了 LLM 从启动子预测基因表达的能力。

增强子识别的最大挑战之一是增强子基因组位置的不确定性,这需要模型处理极长的序列才能有效识别,而这需要CNN和LLM的有效结合。BERT-2D将LLM与CNN串联,形成大语言模型提取序列特征、卷积神经网络进行增强子识别的模型架构。iEnhancer-BERT和iEnhancer-ELM不仅采用了LLM与其他模型框架的串联结构,还在模型训练过程中采用了迁移学习,通过利用多阶段学习获得的先验知识,这些模型提高了对增强子的识别能力。随后,iEnhancer-DCSV通过结合Attention与ResNet ,改进了正样本预测。 Enhancer-LSTMAtt 和 ADH-Enhancer 结合了 CNN、RNN 和 Attention,以增强不同数据集上的性能。enhancerBD 通过整合 BERT 和ResNet进一步提升了性能。

使用 LLM 识别转座因子的最困难挑战之一在于这些因子的多重分类。转座因子大致可分为逆转录转座子和 DNA 转座子。逆转录转座子可进一步细分为 LTR、DIRS、PLE、LINE 和 SINE 等亚型,而 DNA 转座子可分为 TIR、Crypton、Helitron 和 Maverick。TEClass2 将 LLM 与转座子分类器相结合,与基于机器学习的模型相比,预测准确率显著提高了 38.39%。TEClass2 建立在大型语言模型之上,与基于机器学习模型的TEClass 形成鲜明对比。在 TEClass 的开发过程中,深度学习模型相对于传统概率模型在转座子识别方面的优势已经得到证实。 TEClass2 进一步印证了这一说法,为大型语言模型在基因组注释任务中的有效性提供了有力证据。类似 CREATE 的模型结合 RNN、CNN、Attention 等基础框架,针对不同的转座子构建不同的模型,从而完成转座子预测的任务。实验结果表明,这种融合多种模型结构的方式也能显著提升模型对转座子识别的能力。

并非所有调控元件都具有足够的数据进行模型训练。通过搜索,我们仅发现了 AMter,这是一个能够准确识别大肠杆菌中终止子的模型。此外,只有少数模型尝试过跨物种识别。我们观察到当 LLM 用于跨物种调控元件识别时,准确率会显著下降。这可能与模型训练的数据量和跨物种数据的质量参差不齐有关。但我们相信,随着测序技术的进步和实验数据的积累,LLM 将在不久的将来展现出更出色的性能。

核苷酸三维结构预测的大语言模型进展

核酸的功能取决于其三维结构,而三维结构很难通过实验确定,而且成本高昂,因此计算建模是结构预测的重要工具。使用 LLM 预测核酸空间结构是由 AlphaFold 系列模型开创的。目前,预测核酸空间结构的主要方法有三种:第一种方法根据核酸的物理性质计算三维原子坐标;第二种方法利用进化信息和序列比对从同源序列推断三维结构;第三种方法使用类似于 AlphaFold 的深度学习技术来预测未知序列的三维结构。这些方法的不断改进为理解核酸结构和功能提供了强有力的工具。表 5对代表性大型语言模型进行了详细比较,重点介绍了它们的规格和性能。使用三个指标来评估模型性能:RMSD、TM 分数和 lDDT。RMSD 测量预测结构和参考结构之间的原子级差异,值越低表示相似度越高。 TM 分数评估整体结构相似性,对于几乎相同的结构,其分数接近 1。lDDT 评估局部结构准确性,提供更细致的评估。我们收集了各种模型在各自测试集上的性能指标。

表 5.  用于 3D 核酸结构注释的 LLM。

表 5. 用于 3D 核酸结构注释的 LLM。

尽管LLM在预测蛋白质空间结构方面表现出色,但预测核酸空间结构仍然是一项具有挑战性的任务。首先,模型架构需要改进。E2Efold-3D和DeepFoldRNA等模型在保留了AlphaFold系列的多序列比对和自提炼组件的同时,采用了更适合核酸序列的特征提取方法来增强模型预测核酸空间结构的能力。各类指标表明,此类架构修改有助于改进预测。其次,模型需要学习更全面的信息。RoseTTAFoldNA等模型试图利用内在的序列信息、碱基对相互作用以及相对位置和坐标关系,使模型能够充分捕捉核酸数据的特征,从而确保更准确的空间结构预测。第三,DNA和RNA之间的巨大差异对单一模型提出了挑战。因此,trRosettaRNA、NuFold、DRfold 和 RhoFold+ 等模型专注于 RNA 建模,旨在简化模型任务并提高 RNA 空间结构预测的准确性。

基因相互作用的大语言模型的进展

遗传相互作用 (GI) 涉及复杂的相互作用,其中一个基因的功能受到一个或多个其他基因的显著影响,而不仅仅是简单的加性效应。为了有效预测 GI,LLM 通常需要与其他模型架构集成。例如,IChrom-deep 和 HCRNet 等模型利用 CNN 处理更丰富的信息,同时控制模型大小并提高性能。此外,由于基因相互作用关系通常表示为网络结构,并且此类信息不能直接输入 LLM,因此 MAGCN 等模型将图卷积网络 (GCN) 与 LLM 相结合以构建新颖的架构。这种方法增强了模型预测 miRNA 与疾病之间关系的能力。

LLM 需要大量数据才能充分了解这些复杂的基因关系,但目前可用的经过实验验证的数据集不足以满足这一需求。更重要的是,大多数生物性状都受到多个基因和环境因素之间复杂相互作用的调控。这需要 LLM 同时学习基因、相关代谢物和生物因素。然而,现有的数据集通常无法提供此类建模所需的全面信息。

大语言模型在基因组学中的潜力与缺陷

LLM 在处理人类语言方面取得的显著成就表明,LLM 在解开基因组数据的复杂性方面具有巨大潜力。然而,在实际应用中实现这一潜力面临诸多挑战。首先,必须探索合适的编码策略和模型架构,以确保 LLM 能够有效捕捉遗传数据的内在模式。其次,与人类语言不同,核苷酸序列缺乏直观的可解释性,这使得评估模型的学习效果特别具有挑战性。因此,开发准确反映模型性能的评估指标仍然是一项关键挑战。

LLM 在预测表型、基于核酸信息识别关键位点和调控元件方面表现出巨大潜力。然而,当将单个模型应用于多个任务时,其性能会显著下降。此外,某些任务需要整合相关的代谢物和环境信息,而单模 LLM 难以有效处理这些信息。虽然多模模型可以解决这个问题,但它们可能会带来新的挑战,包括增加模型复杂性和潜在的性能下降。因此,LLM 在核酸领域的应用需要不断探索和优化。

LLM 通常表现出物种特异性的性能,当应用于不同物种的数据时,性能会显著下降。例如,PlantCaduceus 和 ProkBERT 等模型在其目标物种的各种任务上都表现出色,但它们的性能在跨物种边界时急剧下降。为了解决这一限制,FloraBERT、DNAGPT 和 AgroNT 等模型探索了扩大模型架构和整合跨物种数据。尽管模型扩展在提高泛化能力方面已被证明是有效的,但计算限制阻碍了持续的扩展努力。持续的扩展是否会继续增强泛化能力仍是一个悬而未决的问题。因此,持续改进模型和扩展跨物种数据集对于增强未来模型的泛化能力至关重要。

LLM 在预测蛋白质空间结构方面取得了显著的成功,很大程度上得益于现有数据库中丰富的先验知识。而核酸领域则缺乏这样的先验知识和数据支持。因此,在先验知识有限的情况下预测未知的核酸信息仍然是 LLM 面临的重大挑战。

尽管 LLM 在基因组学方面具有优势,但它们在人类语言方面的表现尚不及人类。在生成任务方面,LLM 仍处于探索阶段。尽管 Evo 和 megaDNA 等模型可以生成 DNA 序列,但这些序列中的大多数都是无效的,没有生物学意义。此外,大多数模型的规模相对较小。这可能是由于计算资源的限制,但它也限制了模型在下游任务上的能力。

将海量核酸数据集整合到 LLM 中需要进行紧急的伦理审查。与人类语言数据一样,如果处理不当,基因组数据也会反映偏见、侵犯隐私并加剧不平等。使用敏感遗传信息训练 LLM 会带来重大的隐私风险,因为模型可能会无意中记住并泄露私人数据。此外,有偏见的训练数据会放大现有的差异并强化有害的刻板印象。LLM 在基因工程中的应用可能会带来无法预料的灾难性后果,例如产生有害生物和破坏生态。为了减轻这些风险,基因组 LLM 的伦理发展需要严格的数据管理、健全的法规和开放透明的研究,以促进负责任的创新并防止滥用。

未来,多模态核酸LLM和针对特定问题的专用LLM将共同进化。通过解决具体的生物学问题,收集高质量的数据集并开发更高效的模型,我们可以显著提高模型在特定任务上的性能。这也有助于实现模型规模、计算资源和数据之间的平衡,使模型能够更高效、更有效地解决实际问题。此外,由于生物学问题往往受到多种因素的影响,开发能够同时整合有关核酸、蛋白质、代谢和生物环境信息的高效多模态LLM将实现更有效的应用。这将使我们能够充分利用LLM的潜力,实现与人类语言处理一样深刻的应用。最后,建立有效的监管机制,确保负责任地使用数据、模型开发和部署的合规性以及对下游应用的有效监督,将促进该领域的健康发展。

图片

posted @ 2025-04-23 22:23  生物信息与育种  阅读(32)  评论(0)    收藏  举报