01 2022 档案
A Sweet Rabbit Hole by DARCY: Using Honeypots to Detect Universal Trigger's Adversarial Attacks(阅读笔记)
摘要:一、总览 攻击名称:Universal trigger(UNITrigger)是一个种有效的对抗样本攻击方法。 攻击方式:利用学习机制,生成一个固定的短语,添加到良性输入,以此降低near zero on a target class的准确率。 文章提出的防御方法:从网络安全的community中我
阅读全文