知识图谱-生物信息学-医学顶刊论文(Briefings in Bioinformatics-2021):生物信息学中的图表示学习:趋势、方法和应用
4.(2021.6.24)Briefings-生物信息学中的图表示学习:趋势、方法和应用
论文标题: Graph representation learning in bioinformatics: trends, methods and applications
论文期刊: Briefings in Bioinformatics 2021
论文地址: https://www.researchgate.net/profile/Haicheng-Yi/publication/354327323_Graph_representation_learning_in_bioinformatics_trends_methods_and_applications/links/625c158c709c5c2adb836141/Graph-representation-learning-in-bioinformatics-trends-methods-and-applications.pdf
- 4.(2021.6.24)Briefings-生物信息学中的图表示学习:趋势、方法和应用
摘要
图是描述复杂系统的一种天然数据结构,它包含一系列对象和关系。无处不在的现实生活中的生物医学问题可以建模为图分析任务。机器学习,特别是深度学习,在大量的生物信息学场景中取得成功,数据以欧氏空间表示。然而,非欧几里德生物医学图中保留了丰富的生物元素之间的关系信息,这对经典的机器学习方法来说并不友好。图表示学习的目的是将图嵌入到低维空间中,同时保持图的拓扑和节点属性。它连接了生物医学图和现代机器学习方法,最近引起了机器学习和生物信息学领域的广泛关注。本文综述了图表示学习及其在生物信息学中的代表性应用。为了提供全面和结构化的分析和视角,我们首先对图嵌入方法(同构图嵌入、异构图嵌入、属性图嵌入)和图神经网络进行了分类和分析。从分子水平到基因学、制药和医疗保健系统水平,总结了它们的代表性应用。此外,我们为实现这些图表示学习方法总结了相关方法的开源平台和库,并讨论了生物信息学中图表示学习的挑战和机遇。这项工作对新兴的图表示学习算法及其在生物信息学中的应用做了一个全面的调查。预计它将为研究人员提供有价值的见解,以协助他们为图表示学习和面向未来的生物信息学研究做出贡献。
1.引言
图是一种自然的数据结构,它包含一组对象和对象之间的两两关系的集合,是描述和建模现实生活中普遍存在的复杂系统的通用语言,如社交网络、学术引文网络和词语同现网络(不同单词出现在同一句子中)。从分子结构到医疗保健系统,生物医学图在生物医学和生命科学领域无处不在,例如,基因调控网络、蛋白质相互作用(PPI)网络、人脑连接体和生物医学知识图谱。图正日益成为生物医学系统建模、学习和推理的主要工具。
分子生物学、生理学和组学(例如基因组学、蛋白质组学等)的快速发展促进了人们对生物分子、细胞、器官如何协同进行重要的生化或生理活动的理解。将生物组件表示为节点,将节点之间的相互作用表示为边,可以自然地将复杂的生物系统建模为图。这一简洁的概念正逐渐被研究人员接受和推广。为解决生物问题而建模和分析生物图的趋势可以分为三个阶段:双边生物图、多关系生物图和多模态生物医学知识图。我们对它们作如下简要介绍:
- 双边生物图。它包含两种生物对象以及它们之间的联系。它已经应用于许多重要的生物学任务,例如基于PPI图的蛋白质功能注释,从DTI图推断药物的新适应症,"miRNA-疾病"关联预测,"lncRNA-疾病"关联预测和"CircRNA-疾病"关联检测;
- 多关系生物学图。这是一个更复杂的多层异构网络,用于描述多个生物元素之间的复杂协同作用。新出现的研究证实,分子之间存在相互调节和竞争,即竞争内源RNA假说。对于药物发现和疾病治疗,需要综合研究药物与靶点、药物与疾病、药物与基因、疾病与基因、药物与药物的相互作用。这些复杂系统可以很好地形成异构多关系生物学图,如用于"miRNA-疾病"关联预测的"lncRNA-mRNA-miRNA"图、"药物-靶标-疾病"图、"miRNA-基因-疾病"三边图、"化学-基因-疾病"图和"miRNA-基因-lncRNA-疾病"图;
- 生物医学知识图。知识图在历史上有很多名称,如语义网络、知识库或本体。它从大量分散的文档和数据库中的大量信息中挖掘“知识”,并以图的形式将这些实体关系链接在一起。每一段知识都表示为"主体-谓语-客体"三元组。知识图被认为是下一代人工智能的基础设施,在生物信息学领域具有许多前沿应用,包括用于临床决策支持的医疗保健知识图、用于疾病治疗的全局分子关联图和生物医学知识图(例如:PharmGKB、DrugBank、基因本体论(GO)、疾病本体论和KEGG)。
为了将快速积累的生物医学大数据转化为有价值的知识,机器学习,特别是深度学习,成功地应用于生物信息学的广泛场景,如序列分析、结构预测、生物医学图像处理和诊断。这些任务中的数据直接表示在欧几里德空间中,例如序列(1-D)、生物医学图像(2-D)和结构(3-D)。深度学习模型是为了处理这些常规的欧几里得数据(例如文本、序列和拍摄的图像)而设计的,以前的工作已经很好地回顾了这些数据。然而,在非欧几里得生物图和典型的深度学习模型之间存在明显的挑战。例如,图中的节点具有多样的连接、任意的邻域大小、复杂的拓扑结构以及没有固定的节点顺序。为了满足这些需求,图表示学习将丰富的有价值的生物图和先进的机器学习技术结合起来,包括浅层图嵌入方法和新兴的图神经网络(GNN)。图表示学习的主要范例如图1所示。其中,图嵌入的目的是学习节点、链接或子图的低维表示,同时最大限度地保留适合于下游图分析任务的现成机器学习方法的图拓扑和固有属性,例如节点分类、链接预测、社区检测和可视化。然而,GNN不仅可以通过一系列消息聚合和传播来学习保留图拓扑和节点属性的嵌入,而且可以直接端到端地完成图上的任务(如图2所示)。根据前人对图嵌入技术的研究,图嵌入方法可以分为同构图嵌入、异构图嵌入和属性图嵌入方法。基于模型结构和训练策略,GNN可以概括为图递归网络(GRN)、图卷积网络(GCN)、图自动编码器(GAE)和图生成对抗网络(GGAN)。
图1:图表示学习范例。图表示学习连接了非欧几里得图数据和现代机器学习技术。在这里,我们总结了图嵌入方法和图神经网络。
(a)类似网格的欧几里得数据与非欧几里得图的对比(不利于学习)。
(b)图嵌入方法通过将原始图中的节点直接投影到低维表示空间来生成节点表示。
(c)图神经网络通过不同的消息聚合和传播来学习图表示。
(d)图生成模型学习输入样本的分布以生成具有所需属性的分子图。
图2:图嵌入方法和图神经网络的比较。图嵌入方法生成节点表示,可以与机器学习模型结合来执行下游任务,而图神经网络融合图拓扑和属性来执行端到端图任务。
在这项工作中,我们对图表示学习及其在生物信息学中的辉煌应用进行了全面的回顾。
- 我们首先对图表示学习中的浅图嵌入算法和新兴的GNN进行了详细的总结和讨论。
- 然后,介绍了图表示学习在各生物信息学问题中的典型应用。
- 此外,我们还讨论了图表示学习方法在生物信息学中的挑战和机遇。
- 最后,我们总结了用于图计算和图表示学习、以及文中所述的图嵌入和GNN模型的开源平台和库。
这个工作对新兴图表示学习及其在生物信息学中的应用进行了全面的调查,旨在为研究人员在生物信息学研究中应用图表示学习方法提供有用的引导。
2.图表示学习概述
在本节中,我们将简要概述图表示学习方法。图表示学习的目的是将图中的节点编码成低维的向量表示,从而最大限度地保持图的拓扑结构和节点属性信息。首先描述了重定标图和邻近度的符号和定义。然后概述了浅图嵌入方法(包括同构图嵌入、异构嵌入和属性图嵌入)和GNN的关键类型。图3总结了本节中回顾的不同方法之间的层次关系。
图3:图表示学习的分类和代表性方法。
2.1 基本定义
许多现实世界的系统可以抽象地表示为不同级别的信息图,这些信息图侧重于组件以及这些组件之间的关联。图表示学习方法旨在解决泛化图嵌入的问题。在这一部分中,我们首先定义了与图表示学习相关的重要概念,包括不同类型的图,以及不同的图嵌入算法所依赖的图邻近度。为了便于介绍和分析,首先介绍了符号的形式定义。
假设\(G=(V,E)\)表示由一组顶点(也称为节点)\(V=\{v_1,v_2,\cdots,v_{|V|}\}\)和一组链接(也称为边)\(E=\{e_{i,j}\} \in \mathbb{R}^{V \times V}\)组成的图,其中\(|V|\)表示顶点数。图\(G\)的邻接矩阵\(W\)保持与每条边相关联的非负权重,如果\(v_i\)与\(v_j\)相连,那么\(w_{i,j}>0\),反之\(w_{i,j}=0\)。对于无向图,邻接矩阵是对称的,即\(w_{i,j}=w_{j,i},∀i,j∈[v]\)。我们也设计了节点类型映射函数\(φ:V→T\)和链接类型映射函数\(ψ:E→R\)。\(T\)和\(R\)分别是预定义的节点类型和链接类型的集合。
2.1.1 定义1:同构图和异构图
给定一个信息图\(G\),根据它的图拓扑结构和属性性质(有或没有节点属性),可以将其分为不同类型的图。如果节点类型\(|T|>1\)或链路类型为\(|R|>1\),即\(|T|+|R|>2\),则该图是异构图。否则,它是同构图(\(|T|=1\)且\(|R|=1\))。同构图只有一种类型的节点和唯一的链接类型,而异构图包含多种类型的、相互连接的对象,例如"药物-目标-疾病"图。同时,多重图是异构图的一种特殊类型。多重图也称为多视图或多维图,它只有一种类型的节点但有多种类型的边。它可以看作是一类特殊类型的异构图,其中\(|T|=1\)但\(|R|>1\)。
2.1.2 定义2:属性图
信息图中的抽象顶点通常有其固有的性质。一个属性图可以形式化地定义为\(G=(V,E,A)\),其中\(A\)是一个属性表示矩阵。对于每个节点\(v_i∈V\),都有一个对应的特征向量\(a_i∈A\)隶属于它,其中\(A=\{a_i|v_i∈V\}\)是所有节点的节点属性特征集。\(a_i\)是属于节点\(v_i\)的属性矩阵的第\(i\)行。
2.1.3 定义3:元路径
对于异构图,元路径\(\mathrm{P}=\mathrm{T}_1 \stackrel{R_1}{\rightarrow} \mathrm{T}_2 \stackrel{R_2}{\rightarrow} \mathrm{T}_3 \rightarrow \ldots \stackrel{R_1}{\rightarrow} \mathrm{T}_{l+1}\)定义在网络模式\(τ(G)=(T,R)\)上,它由节点类型\(T_1\)和节点类型\(T_{l+1}\)之间的复合关系\(R=R_1◦R_2◦R_3◦···◦R_l\)组成,其中\(l\)表示路径的长度(\(l≥1\)),\(◦\)表示关系上的复合算子。元路径可以有效地处理语义信息,例如,一条路径 \(\text{药物}_a \stackrel{\text{靶标}}{\longrightarrow} \text{蛋白质}_b \stackrel{\text{相互作用}}{\longrightarrow} \text{疾病}_c\)在生物医学图中注明了一种疾病的治疗机制。
2.1.4 定义4:一阶邻近度
一阶邻近度反映了两个直接相邻节点之间的局部成对相似度。如果两个顶点之间有连接,则这两个节点相似,否则不相似。形式上,两个节点\(V_m\)和\(V_n\)的一阶邻近度用\(S_{m,n}\)来度量。如果节点对\(v_m,v_n \notin E\),则\(S_{m,n}>0\);反之\(S_{m,n}=0\)。
2.1.5 定义5:高阶邻近度
高阶邻近度捕获了节点之间的\(k\)跳(\(k≥2\))邻域。而二阶邻近度是高阶邻近度(\(k=2\))的特例,它由中间节点连接的邻居节点的数目决定。通过从\(v_m\)到\(v_n\)的\(k\)跳转移概率来衡量两个节点\(v_m\)和\(v_n\)的高阶邻近度,即\(S_{m,n}=\hat{E}+\hat{E}^2+\hat{E}^3+\cdots+\hat{E}^k\),其中\(\hat{E}\)表示第一跳的转移概率。高阶邻近度捕捉到了全局邻近度。
2.1.6 定义6:语义邻近
通过两个节点的属性特征向量\(a_m\)和\(a_n\)的相似度来获得两个节点\(v_m\)和\(v_n\)的语义邻近度。常用的相似度度量包括余弦相似度、皮尔逊相关系数、杰卡德相似度系数和高斯交互轮廓(GIP)核相似度
2.2 同构图嵌入
图嵌入的第一类是同构图嵌入,也称为网络嵌入或非属性图嵌入。它是最早发展起来的最简单的图表示学习方法。在学习顶点的低维表示时,同构图嵌入方法通常旨在保持图的拓扑。根据它们的技术细节,我们将这些同构图嵌入方法分为三大类:基于矩阵分解的方法、基于随机游动的方法和基于传统深度学习的方法。
2.2.1 基于矩阵分解的方法
矩阵分解旨在将矩阵分解为低维矩阵,同时保持原矩阵的潜在流形结构和拓扑性质。有一些开创性的工作(例如IsoMap、局部线性嵌入、拉普拉斯特征映射和图因式分解)将节点之间的关系表示为图邻接矩阵、拉普拉斯矩阵或相似矩阵,然后采用矩阵因式分解来获得嵌入。这些方法的不同之处在于它们基于不同的一阶矩阵来捕捉图的结构,并且它们通常获得节点的浅嵌入。
最近,基于矩阵因式分解的图嵌入方法也得到了发展,这种方法可以保持高阶邻近性。例如,GraRep和Hope分别通过分解k跳转移概率矩阵和相似度矩阵(通过Kate指数、Rooted PageRank、Common Neighbors和Adamic–Adar得分来衡量)来考虑高阶邻近。虽然其有效性已被证明,但由于巨大的存储开销和极高的计算成本,规模的可伸缩性仍然是基于矩阵分解的方法的关键瓶颈。
2.2.2 基于随机游走的方法
受Word2vec启发,研究人员将NLP中的嵌入方法从单词序列扩展到图节点序列,即路径。采用基于随机游走的方法生成图中的节点序列,获取节点之间的结构关系。具体地说,基于随机游走的方法对于给定的图和起始节点,随机游走并随机选择其邻居节点,然后随机选择相邻节点。通过重复这种处理,一个图被转换成节点序列(类似于遍历)。然后,可以使用类似Skip-Gram模型的概率模型在序列上随机生成上下文词,然后来学习基于生成的节点序列的节点嵌入,从而保持图的结构邻近性。这一类别的开创性工作是Deepwalk。类似地,node2vec改进了灵活的有偏随机游走,平滑地结合了广度优先采样和深度优先采样来获得节点序列。因此,既保留了局部邻近关系,也保留了全局邻近关系。此外,通过对随机游动的偏向和修正,提出了两种变种Walklets和Stuc2vec。Walklets通过跳过一些节点来修改随机行走策略。而不是邻域节点信息,Struc2vec基于节点的结构相似性定义了随机游走。
跳字模型(Skip-Gram):固定窗口大小(即词距)为k,依次把第2个词~倒数第2个词作为目标词,然后对于每个目标词依次在词距内随机选择单词作为上下文词,将每一对(目标词,上下文词)加入跳字模型。
2.2.3 基于传统深度学习的方法
传统深度学习技术在图嵌入学习领域也展示了令人印象深刻的表示学习能力。广泛使用的嵌入方法LINE,可以看作是使用多层感知器逼近一阶邻近度和二阶邻近度来学习节点嵌入。基于深度自动编码器体系结构,SDNE通过对节点的一阶邻近度(基于拉普拉斯特征映射测量)和二阶邻近度的建模来同时保留全局和局部图结构。为了获取高阶邻近性,DNGR通过在正类逐点互信息矩阵上堆叠去噪自动编码器来嵌入深度低维节点。基于传统深度学习的嵌入方法可以学习图中的非线性,但其计算代价普遍较高。最重要的是,这些基于传统深度学习的方法仍然非常原始。它们只能为训练阶段出现的节点生成嵌入。为了缓解这些问题,最近迅速开发了更复杂的GNN。我们将在第2.5节-图神经网络中具体讨论它们。
2.3 异构图嵌入
异构图更自然地与具有多种对象和关联的现实世界场景相关,而上面提到的同质图嵌入方法不能直接作用于它们。异构图嵌入在几年前提出后迅速成为一个蓬勃发展的研究领域。现有的异构图嵌入方法也大致可以分为基于元路径的方法、基于分解的方法和基于深度学习的方法。
2.3.1 基于元路径的方法
由于结构和内容的异构性,随机游动很难找到一种有效的游动策略来捕捉整个图中包含的丰富语义。元路径限制了随机游走的方向,降低了异构图的遍历复杂度。Metapath2vec形式化了元路径引导的随机游走,以生成节点的异构邻域,然后利用异构跳图模型进行节点嵌入。作为扩展,HIN2vec也使用基于元路径的随机游走,提出了一个神经网络来捕捉图的异构性。不同之处在于,它使用生成的元路径作为对象来直接学习元路径和节点的表示。后来,GATNE将这一策略扩展到多路传输异构网络。然而,对于这种类型的模型,适当的游走次数和游走长度的设置是至关重要的。否则,这些方法不能完全保留图的整个结构。
2.3.2 基于分解的方法
基于分解的方法类似于分而治之,它将输入的异构图划分为几个小的子同构图或子双边图,以降低异构图的复杂性。例如,PTE根据边类型将一个异构图分解成多个双边图,然后利用每个双边图上的边来学习共享节点的嵌入。Heer通过考虑节点对在其边嵌入上的类型邻近性来扩展PTE。根据定义的元路径,HERec还将一个异构图投影到不同的维度,然后在每个子图中使用metapath2vec来学习顶点嵌入。
2.3.3 基于传统深度学习的方法
尽管这个问题很重要,但基于传统深度学习技术的异构图嵌入的研究还很少。例如,HNE学习表示。通过深度卷积神经网络获取图和内容的拓扑信息,然后将它们共同投射到一个共同的嵌入空间中。而BL-MNE模型引入了一种基于深度对齐自动编码器的异构图嵌入方法。最近,不同的GNN也被应用于异构图的嵌入。为了更好地在下面介绍它们,将它们组合在一起并进行分类。
2.4 属性图嵌入
除了大多数图嵌入算法使用的图拓扑信息外,一些工作已经证明,还应该充分利用丰富的节点属性来辅助图表示学习。属性图嵌入也可以与同质或异构图嵌入相交,例如属性同质图嵌入或属性异构图嵌入。TADW首先采用归纳矩阵因式分解来融合节点文本属性和图结构。Lane顺利地将图的拉普拉斯技术与标签信息相结合,从节点属性和拓扑结构两个方面联合学习嵌入。ASNE通过集成节点邻近性和结构邻近性开发了一个社交图嵌入框架。Dane捕捉到了各种拓扑结构和节点属性邻近度的高度非线性。Liu等人通过将图的结构、语义信息和属性与高斯分布相融合,提出了一个统一的属性异构图嵌入模型AHNG。ANRL设计了一个邻居增强自动编码器模型,将节点属性亲和度和结构贴近度合并到低维嵌入空间中。
2.5 图神经网络(GNN)
深度学习在各个领域都取得了实质性进展。然而,原有的深度学习方法是针对欧几里得数据(例如文本、序列和拍摄的图像)设计的。为了将深度学习应用于非欧氏图,神经网络近年来得到了迅速的发展和广泛的应用。除了学习图嵌入,GNN通常可以通过各种局部消息聚合和传播步骤来捕获图的结构信息和节点属性,并且可以以端到端的方式直接处理与图相关的任务。根据以前的工作,在本节中,我们根据模型体系结构和训练策略将最新的GNN总结为四类:图递归神经网络(GRN)、图卷积神经网络(GCN)、图自动编码器(GAE)和图生成对抗性网络(GGAN)。一些变体可以基于不同的训练策略将这些体系结构组合和重叠,例如强化学习和对比学习。
2.5.1 图递归神经网络(GRN)
图递归神经网络(GRN)是GNN的开拓性工作,它通过在图中的节点上递归地应用相同的参数来编码高维节点表示。基于信息的扩散机制,Gori等人提出了GNN,它改进了原来的递归神经网络模型来处理图数据,其中节点聚集邻居的信息直到达到稳定的平衡。作为一个显著的改进,Li等人通过使用门控递归单元作为共享参数的映射函数来发展门控GNN,并采用通过时间的反向传播来训练它。为了提高GNN模型的可扩展性,文中还提出了随机稳态嵌入算法,该算法可以递归地更新节点的隐含状态,对大规模图更加有效。
2.5.2 图卷积神经网络(GCN)
图卷积神经网络(GCN)将卷积运算从图像等结构化数据扩展到图数据。其主要思想是学习映射函数\(f(\cdot)\),通过聚合节点自身和邻居的特征来产生节点的嵌入。图的卷积可以分为谱方法和空间方法。Kipf等人引入了第一个GCN,它应用重归一化的技巧来解决梯度爆炸或消失问题。然后,Zang等人提出了联合考虑两层卷积图的局部一致性和全局一致性的对偶GNN,并用正类的逐点互信息矩阵代替了邻接矩阵。然而,这些方法需要将整个邻接矩阵或拉普拉斯矩阵存储在内存中,这将导致昂贵的计算。GCN也有许多变体,例如AGCN、LGCN和FastGCN。GraphSAGE是GCN的一个重要改进,它提供了一个通用的归纳学习框架,可以通过采样和聚合局部邻居的特征来生成不可见节点的嵌入。注意力机制也可以用来改进GCN,图注意力网络(GAT)将自注意力引入到传播步骤中,并进一步考虑了多头注意力以提高模型的容量和稳定性。门控注意力网络通过为不同的注意力头部学习不同的权重来改进多头注意力机制。Han通过在节点层和语义层进行分层关注来学习异构图的节点嵌入,而节点层的注意力用于学习对基于元路径的邻居聚合的不同权重,语义层的关注度则倾向于不同元路径的重要性。
2.5.3 图自动编码器(GAE)
编码器-解码器(encoder-decoder)结构也被广泛应用于图嵌入和图生成任务中。图自动编码器(GAE)首先将该体系结构扩展到图嵌入,该结构采用GCN作为编码器对结构和节点特征信息进行编码,并使用解码器重构邻接矩阵。他们还提出了一种变分图自动编码器(VGAE),通过以变分的方式训练GAE。通过采用GCN作为编码器,使用一个简单的双线性函数作为解码器,提出了GC-MC,并应用到了推荐任务上。此外,图的迭代生成建模(Graphite)通过设计更复杂的解码器来扩展它们,该解码器在成对的图卷积和解码函数之间迭代。除了将节点编码为低维嵌入外,Graph2Gauss(G2G)还通过学习每个节点的高斯分布来捕捉节点的不确定性。受SDNE和G2G的启发,DVNE还使用变分自动编码器(VAE)将每个节点表示为高斯分布,并采用Wasserstein距离来保持节点相似性的传递性。假设图的先验分布为高斯分布,GraphVAE使用GCN作为编码器,简单的多层感知器作为图生成任务的解码器。基于遗传算法的对比学习是无监督图嵌入的另一种方法,它是在深度图信息极大(DGI)中首次提出的。DGI通过最大化节点嵌入和图表示之间的互信息来获取图的全局拓扑信息。类似地,信息图通过最大化不同尺度的图级表示和子图级表示之间的互信息来学习图表示。
2.5.4 图生成对抗性网络(GGAN)
生成对抗性网络(GAN)也能够扩展到图域。GAN背后的主要理念是对抗性训练。生成器的目的是生成负类样本以欺骗鉴别器,而鉴别器的设计目的是识破负类样本,正确区分真实样本和生成的负类样本。最终,这两种模式都将从这场零和博弈的联合训练中受益。对数正则化图自动编码器采用对抗性训练原理对基于GCN的GAE进行正则化,以学习稳健的节点嵌入。具有对抗性正则化自动编码器的网络表示(Netra)提出了一个用于学习网络表示的编解码器框架,而Netra的输入是以每个节点为根的随机游动,并且通过对抗性训练在先验分布内将学习到的嵌入正则化。GraphGAN通过使用GAN增强了节点图嵌入的推理能力。通过采用对抗性训练策略,对抗性网络嵌入通过将先验分布作为真实数据并将嵌入向量作为生成的负类样本来增强现有的图嵌入方法,其中GAN被用作附加的正则化项。同时,一些研究也证明了对抗性训练也可以提高GNN的泛化能力。为了解决分子图的生成问题,分子GAN结合了GCN、GAN和强化学习方案来生成具有所需性质的分子图。NetGan将图生成任务视为学习有偏随机游走的分布,生成器使用LSTM网络产生可能的随机游动,鉴别器试图确定虚假的随机游动。
此外,最近一些GNN模型的预训练和加速的研究也值得注意,例如。GPT-GNN,Graph-BERT,RevGNN-Deep(具有大于1000层的最深GNN)和Graph-MLP,一种新的无需消息传递的图学习框架。
2.5.5 开源
为了方便研究人员实现和开发图表示学习算法,我们首先在表1中提供了图表示学习和图计算平台和库。这些平台和库帮助研究人员快速对图表示学习算法进行基准测试并开发自己的模型。我们还总结了图嵌入的实现和表2中回顾的GNN,其中大部分是官方实现。
表1:图计算和图表示学习的平台和库。
表2:图表示学习算法的开源实现总结。
3.在生物信息学中的应用
从分子水平到医疗水平,图被广泛应用于表示和建模多通道的生物和医疗系统。图4显示了不同尺度的生物医学图。尽管一些开创性的工作已经将图表示学习技术应用于生物医学任务,如分子生成、药物再利用、相互作用预测,但图表示学习在生物医学任务中的应用还没有得到深入的探索。在这一部分中,我们介绍了图表示学习在分子图分析、多组学图分析、医药保健图分析中的一系列代表性应用。
图4:不同尺度的生物医学图表概览。从分子到医疗保健系统,图在生物医学领域无处不在,具有多种类型的类内和类间关系。蛋白质和药物化合物的结构和功能可以看作是分子图。蛋白质和非编码转录物(包括 miRNA、lncRNA、circRNA等)之间的综合关联对多组学图进行了建模。药物、蛋白质靶点、ncRNA、微生物、疾病适应症及其相互作用构成了药物图。并且电子病历、个性化组学和其他数据可以进一步集成到医疗保健系统级的知识图谱中。这些相互关联的多模态图可以基于整体的视角进行系统的整合和充分理解。
3.1 分子图的表示学习
蛋白质和化合物等分子的结构可以看作是由原子和键组成的分子图。节点是原子或氨基酸,边是化学键或肽键。分子图的表示学习的目标是高效、自动地生成具有优化性质的新型分子。
3.1.1 分子表示学习
学习分子的高效表示在蛋白质功能预测、分子性质预测和药物发现等下游任务中起着基础性的作用。除了基于字符串的表示,图表示学习还提供了更灵活、更好的分子表示,这些分子对于特殊任务来说是最佳的。例如,Duvenaud等人提出了一个端到端的框架,通过使用GNN来学习可区分的分子指纹。基于几何深度学习,Gainza等人提出了分子表面相互作用指纹图谱,在蛋白质参与相似相互作用可能共享共同指纹的假设下,捕捉针对特定生物分子相互作用而优化的指纹。最近,Li等人利用自适应GCN学习分子表示,同时考虑了三维分子结构的拓扑不变性和旋转不变性。
3.1.2 分子性质预测
分子性质的准确预测对化合物设计和药物开发至关重要。Gilmer等人提出了一个统一的框架消息传递神经网络(MPNN),并在分子性质预测基准上展示了优越的性能。为了保留分子的空间联系信息,Wang等人利用分子图数据引入了卷积空间图嵌入层(C-SGEL)来研究分子的性质。多层C-SGEL被集成为卷积空间图嵌入模型,并融合分子指纹来预测分子性质。Wieder等人对具有不同结构的GNN进行了一项关于预测分子性质的综述。
3.1.3 分子图生成
设计或生成具有所需性质的分子是药物发现和开发中的一个具有挑战性的问题。现有的图生成模型的目标是直接对联合分布进行建模。Jin等人提出了一种基于VAES的方法来生成连接树结构的化学子结构,然后使用图消息传递网络将它们组合成图。Shih等生成分子图的自回归模型。他们将图的生成描述为一个连续的决策过程,在每一步中生成一个新原子,然后确定生成的原子与现有原子之间的键。Zang等人提出了一个基于可逆流的分子图生成模型,在分子图生成和重构、性质优化等方面取得了最好的性能。最近,Mahmod等人提出了一个分子图生成模型,该模型使用简单的MPNN-GNN学习掩蔽图分量的条件分布,给定图的其余部分。
3.2 多组学中的图表示学习
多组学(Multi-omics)研究是探究生物系统中多种物质之间相互作用的方法。
多组学数据的综合分析已成为生命机制研究的新方向。图表示学习是加速关系多组学数据分析的有价值的工具,包括基因组学、蛋白质组学和转录组学。
3.2.1 基因组学图分析
Li等人提出了一种基于LINE的单细胞表示学习方法,通过从基因表达数据和路径先验中考虑基因与基因的关联来学习对单细胞高通量RNA测序(scRNA-Seq)数据有意义的表示。Li等人将各种基因组和表型图合并到一个异构多重图中,并开发了一种基于随机游走的疾病基因识别方法。GCN-MF结合了GCN和矩阵因式分解来发现基因与疾病的关联。通过使用基因表达矩阵的一个子集,Yang等人提出了一个统一的图变分生成对抗性网络模型(CONDGEN),该模型集成了GCN、VAE和GAN生成图的框架。Rhee等人将基因表达数据组合成PPI图,并将其作为GCN的输入,定义了一个关系网络,以图卷积层加权的边为优先,表示关联的基因集。
3.2.2 蛋白质组图分析
蛋白质是生命活动的直接载体,蛋白质组学在阐明生命活动和复杂疾病的分子机制方面发挥着重要作用。
You等人利用基于IsoMap的嵌入方法对PPI网络中的蛋白质节点进行编码。他们在嵌入空间中测量蛋白质之间的相似性以预测PPI。属性网络嵌入方法Graph2Go融合了蛋白质的属性特征和图嵌入,采用VGAE和GCN进行蛋白质功能推断和GO。姚等人通过去除用于蛋白质复合体检测的可靠性低的PPI来堆叠GCN,以便构建更可靠的PPI网络。
3.2.3 转录组图分析
生物体的转录组含有大量的非编码RNA,包括miRNA、lncRNA、CircRNA等,它们在基因表达、细胞发育和各种生命活动中发挥着重要作用,与复杂的人类疾病密切相关。
MMGCN开发了一种基于多视角、多通道注意力的GCN来预测miRNA与疾病的关联。Sheng等人构建了一个三层异构图,以整合miRNA、lncRNA和疾病之间的相似性和关联性。他们还提出了结合随机游走、卷积自动编码器和VAE的异构属性嵌入方法VADLP,利用注意力机制学习节点特征来预测lncRNA与疾病的关联。Wang等人提出了一种基于FastGCN的方法GCNCDA,通过合并疾病语义相似性信息和CircRNA的GIP来预测CircRNA与疾病的关联。在我们以前的工作中,我们提出了一个分子关联网络,系统地集成了miRNA、lncRNA、CircRNA、mRNA、蛋白质、微生物、药物和疾病之间的全面关联,并提出了基于SDNE和node2vec的学习节点嵌入的方法。融合节点嵌入和节点属性来预测分子间关系,如lncRNA-蛋白质相互作用和miRNA-疾病关联。
3.3 药学中的图表示学习
现代制药投资大、周期长、失败风险高。图表示学习通过集成化合物化学信息、靶点相互作用和临床数据(如副作用和药物组合信息),可以加速药物发现和药物重新定位。
3.3.1 药物-靶点相互作用(DTI)预测
Zong等人应用药物-靶点-疾病三边图的Deepwalk来预测药物-靶点相互作用(DTI)。赵等人融合了DTI和药物-蛋白质对之间的联系,并提出了一种基于GCN的方法来编码药物-蛋白质对的特征来推断DTI。基于异构图表示学习,Peng等人提出了一种基于GCN的端到端学习方法来预测DTI。他们考虑了药物、蛋白质、疾病和副作用之间的联系。塔法尔等人使用node2vec学习药物和靶标的表示,并计算药物-药物、药物-靶标和靶标-靶标之间的相似性。阮等人介绍了将药物编码为图的GraphDTA,并应用GNN预测药物与靶标的结合亲和力。药物-疾病关联预测能准确预测出药物合疾病之间的关联,可以发现现有药物的新适应症或推广新药治疗疾病,即所谓的药物重定位。Zhang等人提出了一种基于相似性约束图因式分解的方法,利用已知的药物-疾病关联、药物特征和疾病语义信息来预测药物-疾病关联。通过使用Deepwalk、LINE、SDNE和HOPE等图嵌入方法,郭等人将医学主题词表示为药物-疾病图,以学习药物和疾病的嵌入。Yu等人构建了一个由已知的药物-疾病关联、药物-药物相似性和疾病-疾病相似性组成的异构图,并提出了分层注意力GCN来学习药物和疾病的嵌入,以预测药物-疾病关联。
3.3.2 药物-药物相互作用(DDI)预测
药物-药物相互作用(DDI)会影响不同药物组合的效果,甚至导致严重的不良反应。有效的DDI预测对患者和降低药物开发成本至关重要。
基于多数据源,Karim等人将各种KGE方法与卷积LSTM和经典机器学习分类器相结合用于DDI预测。他们形成了一个由数据集DrugBank、PharmGKB和KEGG中的药物特征组成的知识图谱。Park等人开发了一种基于注意力的GCN,用于从生物医学文献中提取DDI。为了提高现有DDI预测方法的可扩展性和稳健性,Chen等人探索了一种基于图表示学习的方法来更准确地预测DDI。Celebi等人比较和评价了用于预测DDI的不同KGE方法,并在不相交交叉验证下测试了DDI预测任务。
3.4 医疗保健中的图表示学习
最近的基于图表示学习的计算方法也被用于集成和利用多模式医疗系统数据,如生物医学知识图、电子健康记录(EHR)、电子病历(EMR)和生物医学图像,以更好地实现个性化医疗。EHR或EMR通常由具有层次结构的国际疾病分类代码来表示,它可以自然地表示为全面的医学知识图。也可以涉及疾病症状、分子信息、药物相互作用和副作用信息。
为了促进医学和医疗保健中的临床决策支持系统,Rotmensch等人开发了一种自动化方法,用于从EMR中挖掘和构建连接疾病和症状的高质量医学知识图谱。Ruiz等人提出了一种解释疾病治疗的有效方法,他们将多个受疾病干扰的蛋白质、药物靶点和生物功能整合到一个多尺度的交互组中,并开发了一种基于随机游走的方法来捕捉药物如何通过PPI和生物功能发挥作用。多尺度交互作用组预测与疾病治疗相关的药物疾病关联、蛋白质和生物功能,并预测影响治疗效果和不良反应的基因。基于脑部磁共振成像图像,Song等人提出了对阿尔茨海默病进行分类的方法。Wu等人在中提出了ME2Vec来学习EHR中一般实体的连续低维嵌入,将医疗服务、医生和患者分别用word2vec、GAT和LINE嵌入。为了避免手动标记电子病历数据的限制,Sun等人提出了一种基于广义神经网络的疾病预测模型,利用外部知识库对不足的电子病历数据进行扩充,以患者病历图和医学概念图为基础学习疾病、症状和患者的有效表示。他们进一步研究了GAT和图同构网络聚集器以进行比较。此外,Choi等人提出了一种图卷积变换来学习EHR的隐藏结构,而不是将EHR数据视为扁平结构的特征袋。
4.挑战和机遇
尽管图表示学习在不同的生物医学任务中显示出了良好的结果,但多组学数据集成将继续促进生物和医学研究。然而,目前关于生物医学图的图表示学习并不足以在任何条件下为任何生物和医学图提供令人难以置信的解决方案。未来的发展方向既有挑战,也有机遇。
4.1 数据质量
与其他领域干净、组织良好的数据相比,生物医学图通常稀疏、噪声和不完整。
同时,收集原始和可靠的数据通常需要耗时和费力的湿实验,并且需要进行大量的湿实验。同时,生物医学数据分散、积累快,缺乏良好的结构。鉴于生物医学数据的稀疏性和不完全性,更好地集成多源高质量数据并开发有针对性的图表示学习方法是一个具有挑战性的问题。
4.2 复杂的图结构
图结构在生物医学和医疗保健应用中具有灵活性和复杂性。人们对同质图的处理做了各种努力,一些工作考虑了更复杂的图结构,例如异构图和时空动态图(在现实的生物医学场景中,节点和链接可能会出现和消失,图会随时间动态变化)。此外,scRNA-seq数据和与领域知识相关的数据也提供了有希望的机会,但这些数据具有复杂的图表结构。如何处理面向下游应用的复杂生物医学图是一个很有前景的问题。
4.3 可解释性和鲁棒性
生物医学的风险敏感场景对图表示学习方法的可解释性和鲁棒性提出了更高的要求,而基于神经网络的GNN仍然是黑盒,缺乏可解释性。因此,解释深度图学习结果的能力在决策应用中至关重要。此外,作为许多基于深度学习的模型,如CV和NLP领域,这些图表示学习方法容易受到对抗性攻击。更强大和可解释的图表示学习方法对于将图表示学习应用于具有可信解释和可信防御的生物医学问题非常重要。
结论
图表示学习将全面的图结构生物医学数据和先进的机器学习方法联系起来,促进了从分子到医疗保健系统的生物医学研究。在这项工作中,我们对图表示学习及其在生物信息学中的应用进行了全面和系统的调查。总结了图嵌入方法(包括同构图嵌入、异构图嵌入、属性网络嵌入)和新兴的GNN(如GRN、GCN、GAE和GGAN)。我们分析了图表示学习在分子、基因组学、制药和医疗保健领域的代表性应用。此外,还总结了用于图表示学习的开源平台和库。我们相信这项工作可以促进图表示学习和生物医学研究。