A Differentiable Language Model Adversarial Attack on Text Classifiers(IEEE Access 2022)

 

1、Gumbel-Softmax随机采样

优势:

(1)函数可导,能够利用反向传播算法快速计算出梯度

(2)引入Gumbel分布,能够在保证函数可导的情况下进行随机采样

流程:

(1)根据用户输入xi生成类别概率集P∈{π_1,π_2,...,π_k}

(2)根据概率集P和随机变量g抽取样本x'i,其中:

 

    通过添加gi来引入随机性,添加gi后的采样结果依旧服从于原始分布

  (3)在正向传播中会采用argmax进行计算,而在反向传播中则使用softmax进行近似计算

 

生成模型:四层Transformer模型

替代模型:

【1】白盒场景:RoBerta

【2】黑盒场景:LSTM

 

2、模型参数更新

优化目标:

  最小化正确分类概率的同时最小化原始示例的编辑变化

损失函数:

 

  (1)DL(x',x):编辑距离,指x转变为x'所需的最小编辑次数

例子:DL(kitten,sitting)=3

【1】kitten → sitten (k→s)

【2】sitten → sittin (e→i)

【3】sittin → sitting (insert a 'g')

 

(2)β:编辑距离加权系数,若需要进行多次修改才能从x变成x',则需要对这种情况进行惩罚

 

(3)C(x'):分类器,输出x'正确标签分类的概率(RoBERTa)

实验比对

 

评估指标:

(1)Accuracy score:最终生成文本的准确率

(2)PD:攻击前后模型进行正确分类的概率差异,差异越大攻击效果越好

(3)ROC/AUC:用于评价分类检测结果的好坏,越小攻击效果越好

 

数据集:

(1)AG:由各种网络新闻文章组成,题材包括世界、体育、商业、科学技术
(2)DSTC:和对话任务相关的特殊数据集,内容为根据对话提取对话意图及解释
(3)SST: 电影评论并带有情感标签
(4)RT:烂番茄影评并带有情感标签

 

posted @ 2024-06-23 17:08  sftsgly  阅读(13)  评论(0编辑  收藏  举报