论文解读《Research on the application of contrastive learning in multi-label text classification》

论文信息

论文标题：Research on the application of contrastive learning in multi-label text classification
论文作者：Nankai Lin, Guanqiu Qin, Jigang Wang, Aimin Yang, Dong Zhou
论文来源：aRxiv 2022
论文地址：download
论文代码：download

1 Introduction

　　本文介绍了对比学习在多标签文本分类中的应用。

2 Method

　　任务：给定包含 $K$ 个样本的样本集 $D=\left\{\left(X_{1}, Y_{1}\right),\left(X_{2}, Y_{2}\right), \ldots,\left(X_{K}, Y_{K}\right)\right\}$，下标 $I=\{1, \ldots, K\}$。将文本 $X_{i}$ 放入分类模型 $M$ 得到对应的句子表示 $E_{i}^{t}$，情绪表示 $E_{i}^{e}$，目标是通过句子表示准确得到文本 $X_{i}$ 的标签 $Y_{i}=\left\{y_{1}, y_{2}, \ldots, y_{l}\right\}$ 。

2.1 Strictly Contrastive Loss

　　SCL 要求只有当样本的标签集与锚点的标签集完全相同时，它才可以用作锚点的正对比样本。因此，SCL是一种非常严格的方法，它不考虑与锚点标签集部分重叠的样本。在SCL中，对于一个给定的样本i，在批处理中与它共享相同标签集的所有其他样本形成集合 $S=\left\{s: s \in I, Y_{p}=Y_{i} \wedge p \neq i\right\}$。然后我们可以为批处理中的每个样本 $i$ 定义SCL函数是

　　　　${\large L_{S C L}=-\sum_{s \in S} \log \frac{\exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{s}^{t}\right) / \tau\right)}{\sum_{k \in I /\{i\}} \exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{k}^{t}\right) / \tau\right)}} $

2.2 Jaccard Similarity Contrastive Loss

　　SCL是一种严格的对比学习方法，它只关闭具有完全相同标签的样本，而 JSCL 根据样本标签的相似性对样本进行不同程度的操作。对于一个给定的样本，JSCL将尽可能地放大到具有完全相同标签的样本，而只略微放大具有一些相同标签的样本。在 JSCL 中，对于给定的样本 $i$，我们可以定义 JSCL 函数为

　　　　$L_{J S C L}=-\sum\limits _{s \in I} \log \frac{\frac{\left|Y_{i} \cap Y_{s}\right|}{\left|Y_{i} \cup Y_{s}\right|} \cdot \exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{s}^{t}\right) / \tau\right)}{\sum_{k \in I /\{i\}} \exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{k}^{t}\right) / \tau\right)}$

2.3 Jaccard Similarity Probability Contrastive Loss

　　Li 等人提出，概率对比学习比特征对比学习可以产生更紧凑的特征，同时迫使输出概率分布在类权值周围。基于JSCL，我们尝试使用概率来进行对比学习。在JSPCL中，对于给定的样本 $i$，我们可以定义 JSPCL 函数为

　　　　${\large L_{J S P C L}=-\sum_{s \in I} \log \frac{\frac{\left|Y_{i} \cap Y_{s}\right|}{\left|Y_{i} \cup Y_{s}\right|} \cdot \exp \left(\operatorname{sim}\left(E_{i}^{e}, E_{s}^{e}\right) / \tau\right)}{\sum_{k \in I /\{i\}} \exp \left(\operatorname{sim}\left(E_{i}^{e}, E_{k}^{e}\right) / \tau\right)}} $

2.4 Stepwise Label Contrastive Loss

　　SLCL是另一种考虑在标签不完全相同的样本之间进行对比学习的方法。前三种对比学习方法主要考虑同时考虑多个情绪的情况，而SLCL分别考虑不同的情绪，分别计算对比损失，然后结合了每一种情感的损失。在 JSPCL 中，对于一个给定的样本 $i$ ，在批中与它共享相同标签 $y_j$ 的所有其他样本形成正样本集 $S_j$。每个情绪标签下的正样本集为 $S=S_{1}, S_{2}, . . S_{q}$，$q$ 是情绪的样本 $i$ 的数量。然后我们可以为每个样本 $i$ 定义 SLCL 函数

　　　　$L_{S L C L}=-\frac{1}{q} \sum_{S_{j} \in S} \sum_{s \in S_{j}} \log \frac{\exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{s}^{t}\right) / \tau\right)}{\sum_{k \in I /\{i\}} \exp \left(\operatorname{sim}\left(E_{i}^{t}, E_{k}^{t}\right) / \tau\right)}$

2.5 Intra-label Contrastive Loss

　　不同于其他几个对比损失缩小样本的语义表示与相同的标签，ICL旨在使多个情感表示存在于同一样本更近，也就是说，ICL缩小情感表示之间的距离，而不是样本表示之间的距离。在ICL中，对于一个给定的样本 $i$ 和 $i$ 的情绪指数 $I_{Y}=\{1, \ldots, I\}$，我们可以定义每个样本 $i$ 的第 $j$ 个情绪的 ICL 函数

　　　　$L_{I C L_{j}}=-\sum_{s \in I_{Y}} \log \frac{\exp \left(\operatorname{sim}\left(E_{j}^{e}, E_{s}^{e}\right) / \tau\right)}{\sum_{k \in I_{Y} /\{j\}} \exp \left(\operatorname{sim}\left(E_{j}^{e}, E_{k}^{e}\right) / \tau\right)}$

　　　　$L_{I C L}=\frac{1}{\left|Y_{i}\right|} \sum_{Y_{i}} L_{I C L_{j}}$

3 Training Objective

　　目标函数：

　　　　$L=\alpha \cdot L_{C L}+(1-\alpha) \cdot L_{B C E}$

　　其中：$L_{C L} \in\{S C L, I C L, J S C L, J S P C L, S L C L\}$

posted @ 2022-12-07 15:29 别关注我了，私信我吧阅读(247) 评论(0) 收藏举报

刷新页面返回顶部

xxai