【五期邹昱夫】CCF-A(NeurIPS'21)Adversarial Neuron Pruning Purifies Backdoored Deep Models
本文提出对抗神经元修剪(ANP),通过修剪一些敏感的神经元,以净化模型中被注入的后门。对神经元进行逆向扰动,具有后门相关性的神经元会在干净样本上也呈现后门行为,并且比正常神经元更容易输出错误分类。扰动方法是对神经元的权重和偏置值分别增加一个很小的倍数。修剪时只设置权重为0,偏执值不变以维持干净样本准确率。"Wu, Dongxian, and Yisen Wang. "Adversarial neuron pruning purifies backdoored deep models." Advances in Neural Information Processing Systems 34 (2021): 16913-16925."
本文的优点在于利用后门神经元对扰动敏感的特点进行防御,并且只使用修剪的方法进行防御,达成了较好的防御效果。
本文的缺点在于后门防御的算力成本较高,文中提到的1%的样本数量实现防御需要在2000次迭代测试。并且后门攻击如果是感染整个神经网络的神经元,该方法效果存疑。
2023年6月27日