【五期邹昱夫】CCF-A（NeurIPS'21）Adversarial Neuron Pruning Purifies Backdoored Deep Models

"Wu, Dongxian, and Yisen Wang. "Adversarial neuron pruning purifies backdoored deep models." Advances in Neural Information Processing Systems 34 (2021): 16913-16925."

本文提出对抗神经元修剪（ANP），通过修剪一些敏感的神经元，以净化模型中被注入的后门。对神经元进行逆向扰动，具有后门相关性的神经元会在干净样本上也呈现后门行为，并且比正常神经元更容易输出错误分类。扰动方法是对神经元的权重和偏置值分别增加一个很小的倍数。修剪时只设置权重为0，偏执值不变以维持干净样本准确率。
本文的优点在于利用后门神经元对扰动敏感的特点进行防御，并且只使用修剪的方法进行防御，达成了较好的防御效果。
本文的缺点在于后门防御的算力成本较高，文中提到的1%的样本数量实现防御需要在2000次迭代测试。并且后门攻击如果是感染整个神经网络的神经元，该方法效果存疑。

2023年6月27日

posted @ 2023-06-27 16:24 方班隐私保护小组阅读(150) 评论(0) 收藏举报

刷新页面返回顶部

方班隐私保护小组

【五期邹昱夫】CCF-A（NeurIPS'21）Adversarial Neuron Pruning Purifies Backdoored Deep Models

公告