【五期邹昱夫】CCF-A(NeurIPS'21)Adversarial Neuron Pruning Purifies Backdoored Deep Models

"Wu, Dongxian, and Yisen Wang. "Adversarial neuron pruning purifies backdoored deep models." Advances in Neural Information Processing Systems 34 (2021): 16913-16925."

  本文提出对抗神经元修剪(ANP),通过修剪一些敏感的神经元,以净化模型中被注入的后门。对神经元进行逆向扰动,具有后门相关性的神经元会在干净样本上也呈现后门行为,并且比正常神经元更容易输出错误分类。扰动方法是对神经元的权重和偏置值分别增加一个很小的倍数。修剪时只设置权重为0,偏执值不变以维持干净样本准确率。
  本文的优点在于利用后门神经元对扰动敏感的特点进行防御,并且只使用修剪的方法进行防御,达成了较好的防御效果。
  本文的缺点在于后门防御的算力成本较高,文中提到的1%的样本数量实现防御需要在2000次迭代测试。并且后门攻击如果是感染整个神经网络的神经元,该方法效果存疑。

2023年6月27日


posted @ 2023-06-27 16:24  方班隐私保护小组  阅读(77)  评论(0编辑  收藏  举报