Explaining The Efficacy of Counterfactually-Augmented Data
摘要
本文针对的话题是关于使用反事实增强数据来提高模型效果,使用简单的因果模型结构来分析观测噪音对模型表现的影响,并且研究了两种自动生成反事实数据的方法和人为去生成有什么区别。
本文提出了一个猜想:
- 如果把人为标注的因果特征修改为随机噪音,那么在跨域实验效果会变差,而原始数据影响不大
- 如果把认为表述的因果特征以外的特征修改为随机噪音,那么在原始数据上实验效果会变差,而跨域实验效果变化相对不会很差
简单模型分析
关于这一部分的数学证明不是很明白
论文中说明,观测到的特征有噪声等效于在一个无噪声的有限数据集上进行训练。
Causal Setting
根据论文中的证明,可以观察到,\(\widehat{\beta^{cols}_1} \propto \frac{1}{\sigma_{\epsilon_{x1}}^2}\),当对\(x_1\)观测的噪声很大时,因果特征的比重就会很小,而非因果特征比重就会上升,另一方面,如果\(x_1\)观测无噪声,那么观察到\(x_2\)有噪声也不会影响系统的评估。
对于CAD来说,这种情况下对直接因果特征\(x_1\)进行干预,即使观测到的\(x_1\)有噪声,也不会对非因果特征\(x_2\)产生依赖。
Anticausal setting
在这个场景下,标签会对观测结果\(x_1\)产生影响,对于CAD来说,可以在不修改句子其他特征的情况下修改标签,从而影响\(x_1\)(不是很理解怎么做到这一点)。
实验结果
实验首先针对上述猜想,进行验证,分别使用情感分析和自然语言推断(NLI)数据集,模型结构和设置详见论文原文 EMPIRICAL RESULTS 部分。另外,实验还探索了人为生成的反事实数据和 1. 使用注意力等机制 2. 使用自动情感反转等工具 有什么差别。
实验采用逐渐地往原始样本中添加噪声的方法,随着噪声添加越来越多,观测模型效果的变化情况。
关于NLI数据中表现出的不一致问题的解释
these results are due to the fact that in our experiment design for NLI, we only keep those premise-hypothesis pairs that contain at least 10 tokens marked as rationales so we can observe the difference in accuracy as the amount of noise increases. A consequence of this selection is that many pairs selected have many more tokens marked as rationales than non-rationales, whereas, in sentiment analysis this is the opposite. Hence, in NLI when some percentage of rationales are replaced by noise, this corresponds to many more edited tokens than when a corresponding percentage of non-rationales are noised.
结论
- 本文提出的猜想:对因果特征添加噪声导致跨域效果下降;对非因果特征添加噪声导致跨域效果增强。
- 在情感分析和NLI两个任务上做实验,结果发现效果截然相反,猜想是由于人物本身的性质,情感分析更加主观,而NLI更倾向于表达事实;另外也发现了一些特殊情况,如跨域之后由于和原始数据相关性还是很强导致效果并没有明显下滑的情况(非因果特征依然适用)
- 通过自动生成反事实数据和风格迁移生成的数据可以相对提高模型在原始数据上的表现,但是不如手动生成的CAD效果好。