论文解读(SPGJL)《Soft Prompt Guided Joint Learning for Cross-Domain Sentiment Analysis》
Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ]
论文信息
论文标题:Soft Prompt Guided Joint Learning for Cross-Domain Sentiment Analysis
论文作者:Jingli Shi、Weihua Li、Quan Bai、Yi Yang、Jianhua Jiang
论文来源:2023 aRxiv
论文地址:download
论文代码:download
视屏讲解:click
1 介绍
动机:现有的领域适应对话总结通常需要使用大量的外部数据进行大规模的预训练 ;
贡献:
-
- 第一个通过基于软提示的联合学习方法来解决跨域 ATE 任务的方法;
- 可学习的提示被设计在多个源域上,以实现有效的知识转移;
- 实验结果表明,该方法可以优于最先进的微调和提示调整模型;
2 方法
模型框架
给定一个带有 $n$ 个单词的句子 $s=\left\{w_{1}, w_{2}, \ldots, w_{n}\right\}$,将该单词序列转换为连续嵌入的 $E_{s}=\left\{e_{1}, e_{2}, \ldots, e_{n}\right\} $。对于每个嵌入 $e_{i} $,它由三种类型的嵌入组成:
-
- 通过 $\text{Eq.1}$ 进行预训练的语言模型得到单词嵌入$e^{w}$;
- 语法嵌入 $e^{\text {pos }}$ 的计算方法见 $\text{Eq.2}$。为了有效地利用领域不变特征,将 25% 的原始 POS 标签随机替换为一个特殊的标记 $\text{[MASK]}$,并设计了一个语法学习模块来预测被掩蔽的 POS 标签;
- 软提示嵌入通过 $\text{Eq.3}$ 计算;
如下:
$\begin{array}{l}e^{w}=T 5\left(\left\{w_{1}, w_{2}, \ldots, w_{n}\right\}\right) \;\;\; \quad \quad\quad(1)\\e^{p o s}=T 5\left(\left\{t_{1},[M A S K], \ldots, t_{n}\right\}\right) \quad\;(2)\\e^{p}=T 5\left(\left\{p_{1}, \ldots, p_{m}\right\}\right) \;\;\;\quad \quad\quad\quad\quad(3)\end{array}$
$\begin{array}{l}\hat{y}^{p}=\operatorname{softmax}\left(W^{p} *\left[e^{w} ; e^{p o s} ; e^{p}\right]+b^{p}\right) \\\mathscr{L}_{\text {prompt }}=\sum^{\mathbb{D}_{s}} \sum_{i}^{n} f\left(\hat{y}_{i}^{p}, y_{i}^{p}\right)\end{array} \quad(4)$
Pos token 预测:
$\hat{y}^{p o s}=\operatorname{softmax}\left(W^{p o s} *\left[e^{w} ; e^{p o s} ; e^{p}\right]+b^{p o s}\right) \quad(5)$
$\mathscr{L}_{\text {syntax }} =\sum^{\mathbb{D}_{s}} \sum_{i}^{n} I(i) * f\left(\hat{y}_{i}^{\text {pos }}, y_{i}^{\text {pos }}\right) \quad \quad(6)$$\begin{aligned}I(i) & =\left\{\begin{array}{ll}1 & \text { if token is masked } \\0 & \text { else }\end{array}\right.\end{aligned} \quad \quad \quad\quad(7)$
训练目标:
$\mathscr{L}(\theta)=\alpha * \mathscr{L}_{\text {prompt }}+\beta * \mathscr{L}_{\text {syntax }} \quad \quad(8)$
3 实验
略
因上求缘,果上努力~~~~ 作者:图神经网络,转载请注明原文链接:https://www.cnblogs.com/BlairGrowing/p/17671368.html