QA 中的对抗攻击和防御
攻击
supporting facts 的修改:字符调换,替换词(用空格embedding或近同义词,变形词等)
还有针对question的攻击。
梯度下降,在embediing上做攻击,如何decode是个问题。
防御
如果把大量对抗样本加到训练样本一起训练不够显示,作用不是很大,随时都可能会有新的对抗样本。
2018 Tackling Adversarial Examples in QA via Answer Sentence Selection
这篇讲的是先筛选候选句,再进行推理回答。
2019-09-20
最近新看了一个生成视觉相关的对抗样本的文章,觉得很有道理。