THLM论文阅读笔记

Pretraining Language Models with Text-Attributed Heterogeneous Graphs论文阅读笔记

Abstract

现存的问题:

​ 目前语言模型(LM)的预训练任务主要集中在单独学习每个实体的文本信息,而忽略了捕捉 TAHGs 中实体间拓扑连接的关键环节。

提出方法:

​ 本文提出了一种新的 LM 预训练框架,该框架明确考虑了 TAHG 中的拓扑和异构信息。首先,我们将上下文图定义为目标节点在特定顺序内的邻域,并提出了一种拓扑感知预训练任务,通过联合优化 LM 和辅助异构图神经网络来预测上下文图中涉及的节点。其次,根据观察到的一些节点文本丰富而另一些节点文本很少的情况,我们设计了一种文本增强策略,用其邻居的文本来丰富无文本节点,以处理不平衡问题。

Introduction

​ 事实上,文本不仅包含语义信息,还相互关联,这可以用文本归属异构图(TAHGs)很好地表示,TAHGs 包括具有文本描述和关系的多类型节点。示例见图 1。一般来说,TAHG 通常会面临以下两个现有 PLM 难以应对的挑战。

pAP5GY6.png

​ 丰富的拓扑信息(C1)。TAHG 中既有一阶连接,也有高阶连接,可以反映丰富的关系。例如,一篇论文可以通过一阶引用与参考文献建立联系,也可以通过高阶合著与其他论文建立联系。然而,常用的预训练任务只是独立地从文本中学习,因此忽略了不同文本之间的联系。尽管最近有一些研究试图让PLM意识到图拓扑,但它们只考虑了一阶关系,未能处理高阶信号。

​ 节点文本描述不平衡(C2)。在 TAHGs 中,节点是异构的,它们所携带的文本往往量级不同。例如,论文有标题和摘要(富文本节点),而作者和关键词只有名称或简短的术语(无文本节点)。目前,如何预训练 LM 以全面捕捉 TAHGs 的上述特征仍是一个悬而未决的问题。

​ 在本文中,我们提出了一种新的预训练框架,将 TAHG 中的拓扑信息和异构信息整合到 LM 中,即 THLM。

​ 为了解决 C1 问题,我们将上下文图定义为中心节点在 K 阶内的邻域,并设计了一个拓扑感知预训练任务(上下文图预测)来预测上下文图中的邻域。具体来说,我们首先通过将中心节点的文本输入 LM 获得其上下文表示,然后通过辅助异构图神经网络计算给定 TAHG 中节点的结构表示。然后,我们根据表征预测上下文图中涉及的节点,旨在为 LM 注入图神经网络的多阶拓扑学习能力。

​ 为了解决 C2 问题,我们设计了一种文本增强策略,即用邻近文本丰富无文本节点的语义,并用 LM 对增强文本进行编码。

本文的核心贡献如下:

  • 我们研究了在更复杂的数据结构(即 TAHGs)上预训练 LM 的问题。与大多数只能从每个节点的文本描述中学习的 PLM 不同,我们提出了一个新的预训练框架,使 LM 能够捕捉不同节点之间的拓扑连接。
  • 我们引入了拓扑感知预训练任务,以预测目标节点上下文图中的节点。这项任务联合优化了一个 LM 和一个辅助异构图神经网络,使 LM 能够利用一阶和高阶信号。
  • 我们设计了一种文本增强策略来丰富无文本节点的语义,从而缓解文本失衡问题。

Method

​ 图 2 显示了我们提出的方法的整体框架,主要由两个部分组成:拓扑感知预训练任务和文本增强策略。给定 TAHG,第一个模块提取目标节点的上下文图,并通过联合优化 LM 和辅助异构图神经网络预测上下文图中涉及的节点。该模块旨在使 PLM 能够捕捉 TAHG 中的一阶和高阶拓扑信息。由于有些节点在 TAHGs 中的文本描述可能很少,因此进一步引入了第二个组件来解决节点文本描述不平衡的问题,即通过邻近节点的文本来丰富无文本节点的语义。值得注意的是,在预训练阶段之后,我们放弃了辅助异构图神经网络,只将 PLM 用于各种下游任务。

pAPId3T.png

拓扑感知的预训练任务

​ 大多数现有的 PLM 无法通过文本描述捕捉节点之间的连接,为了解决这一缺点,最近有人提出了一些方法。虽然这些方法很有见地,但它们只关注节点间一阶连接的建模,而忽略了高阶信号,而高阶信号在网络分析等领域被证明是至关重要的。为此,我们提出了一种拓扑感知预训练任务(即上下文图预测),以帮助 LMs 捕捉不同节点之间的多阶连接。

上下文图提取

​ 我们首先说明目标节点上下文图的定义。假设 Nu 是给定 TAHG G = (V, E, U, R, X ) 中节点 u 的一阶邻居集合。节点 u 的上下文图\(\mathcal{G}_u^K\)由 u 在 K 阶内可以到达的邻居(包括节点 u 本身)及其连接组成,用\(\mathcal{G}_u^K=(\mathcal{V}_u^K,\mathcal{E}_u^K)\)表示。根据该定义,我们可以根据给定的TAHG g提取节点u的上下文图。注意,当K≥2时,上下文图\(\mathcal{G}_u^K\)将包含节点之间的多阶相关性,这提供了一个通过从\(\mathcal{G}_u^K\)学习来获取这些信息的机会。

上下文图预测

​ TAHG 不仅包含多种类型的节点和关系,还涉及节点的文本描述。我们没有像大多数 PLM 那样在单一文本上进行预训练,而是提出了上下文图预测(CGP),用于在 TAHGs 上对 LM 进行预训练,以捕捉丰富的信息。由于 LM 已被证明在文本建模方面功能强大,CGP 的目标是将图神经网络的图学习能力注入 LM。

​ 具体来说,我们首先利用一个辅助异构图神经网络对输入的 TAHG G 进行编码,然后得到 V 中所有节点的表示,如下所示:

\(\boldsymbol{H}^{\mathcal{G}}=f_{HGNN}\left(\mathcal{G}\right)\in\mathbb{R}^{|\mathcal{V}|\times d}\)

​ 其中,fHGNN (-) 可以通过任何现有的异构图神经网络来实现。然后,我们用一个 LM 对目标节点 u 的文本描述进行编码,并通过以下方式得出其语义表示:

\(\boldsymbol{h}_{LM}^u=\mathrm{MEAN}(f_{LM}\left(X_u\right))\in\mathbb{R}^d,\)

​ 此外,为了捕捉节点 u 的异质性,我们在 PLM 的最后一层引入了投影头。Xu 表示节点 u 的文本描述。接下来,我们通过二元分类任务预测节点 v 参与 u 的上下文图\(\mathcal{G}_u^K\)的概率

\(\hat{y}_{u,v}=\operatorname{sigmoid}\left(\boldsymbol{h}_{LM}^u{}^\top\boldsymbol{W}_{\phi(v)}\boldsymbol{H}_v^\mathcal{G}\right),\)

预训练过程

​ 在这项工作中,我们使用 BERT 和 R-HGNN 分别实现了 fPLM (-) 和 fHGNN (-)。由于预测等式(3)中所有节点 v∈V 的出现概率难以实现,我们采用负采样来共同优化 fPLM (-) 和 fHGNN (-)。为了生成正采样,我们在每一跳中从特定关系中均匀采样 k 个邻居。负样本从剩余节点集 V \ Vu K 中采样,负采样率为 5(即每个正样本采样 5 个负样本)。除了 CGP 任务外,我们还加入了广泛使用的掩码语言建模(MLM)任务,以帮助 LM 更好地处理文本。每个节点 u∈V 的最终目标函数为:

\(\begin{align} \mathcal{L}_{u} &= \mathcal{L}_{u}^{\text{MLM}} + \mathcal{L}_{u}^{\text{CGP}} \notag \\ &= -\log P(\tilde{X}_{u} | X_{u \setminus \tilde{X}_{u}}) - \sum_{v \in \mathcal{V}_{u}^{K}} \log \hat{y}_{u,v} \notag \\ &\quad - \sum_{i=1}^{5} \mathbb{E}_{v_{i}^{'} \sim P_{n}(\mathcal{V} \setminus \mathcal{V}_{u}^{K})} \log \left(1 - \hat{y}_{u,v_{i}^{'}}\right), \end{align}\)

​ 其中,\(\tilde{X}_{u}\)是节点 u 的原始文本描述 Xu 的损坏版本,屏蔽率为 40%。Pn(-) 表示正态噪声分布

​ 此外,辅助异构图神经网络每个节点的输入特征都是根据等式(2)的语义表示来初始化的,实验证明这比随机初始化的可训练特征更好。

文本增强策略

​ 如第 1 节所述,TAHGs 中不同类型节点的文本描述长短不一,形成了富文本节点和无文本节点。富文本节点的详尽描述能很好地揭示其特征,而无文本节点的简短描述不足以反映其语义,仅对这些描述进行编码会导致性能不达标。因此,我们设计了一种文本增强策略来解决不平衡问题,该策略首先根据 TAHGs 中的连接,结合邻近节点的文本描述来丰富无文本节点的语义,然后通过 LMs 计算增强文本。

​ 具体来说,对于富文本节点 u,我们使用其带有特殊标记的文本作为输入 Mu,记为 [CLS] Xu [SEP]。对于无文本节点 u,我们将其文本和 k 个采样邻居文本串联起来作为输入 Mu,即\(\text{[CLS] }X_u\text{ [SEP] }X_{\mathcal{N}_u^1}\text{ [SEP] ... [SEP] }X_{\mathcal{N}_u^k}\text{ [SEP]}\)此外,在节点缺乏文本信息的情况下,我们还采用了连接邻居文本序列的方法。这种方法能为这类节点生成重要的语义表征,有效解决文本不平衡问题。在对文本进行扩充后,我们将方程(2)的输入从 Xu 改为 Mu,从而得到具有更多语义的表示\(h_{LM}^u\)。我们通过经验发现,文本增强策略可以在不显著增加模型复杂度的情况下带来非同小可的改进。

下游任务中的微调

​ 经过预训练后,我们舍弃了辅助异构图神经网络 fHGNN (-),只应用预训练的 LM fLM (-),根据公式 (2) 生成节点的语义表示。我们选择两个与图相关的下游任务进行评估,包括链接预测和节点分类。我们在 fLM (-) 的顶端使用了各种头部进行详尽比较,包括多层感知器(MLP)、RGCN、HetSANN和 R-HGNN 。对于下游任务,为了提高效率,fLM (-) 被冻结,只有头部可以微调。

总结

​ 这篇文章讲的还是很清晰的,这篇文章的主要目的是训练一个LM,使得这个LM能够捕获文本属性图中实体之间的拓扑链接。具体实现方法就是使用拓扑感知的预训练任务,联合优化LM和异构图神经网络,具体实现方式如下:

​ 首先是进行上下文图的提取,也就是获取节点及其K阶内的邻居。然后进行上下文的图预测,也就是先用HGNN对文本属性异构图进行编码,得到所有节点的表示,然后采用LM对每个节点的文本属性进行编码,然后使用一个二元分类任务来预测节点v参与u的上下文图的概率,v是用的图生成的表示,u是用的LM生成的表示。最后预训练的时候是将掩码语言任务以及刚刚上下文图提取的任务结合在一起。

​ 最后提一下这个文本增强策略,也就是根据图来改变输入到LM的文本属性,如果某个节点没有文本,那么就将其相邻节点的文本进行串联作为该节点的文本属性输入到LM中。

posted @ 2024-08-20 15:41  ANewPro  阅读(52)  评论(0编辑  收藏  举报