【五期邹昱夫】CCF-A(NeurIPS'22)Trap and Replace: Defending Backdoor Attacks by Trapping Them into an Easy-to-Replace Subnetwork
本文提出一种基于图像生成网络的后门攻击防御方法。该方法将图像分类模型分成特征提取子网络和分类子网络,并添加了图像生成子网络。在一阶段使用投毒后门数据集训练时,以图像生成子网络为主导,与分类子网络共同训练特征提取子网络,确保特征提取子网络学习到正确的特征。第二阶段,冻结特征提取子网络的参数,在此基础上,使用少量干净数据训练新的分类子网络。"Wang, Haotao, et al. "Trap and Replace: Defending Backdoor Attacks by Trapping Them into an Easy-to-Replace Subnetwork." Advances in Neural Information Processing Systems."
本文的优点在于通过拆分图像分类模型,将复杂任务简化,使用图像生成网络去除特征提取子网络的后门相关性。
本文的缺点在于该方法计算成本过高,并且并没有与之前类似的使用图像生成网络的后门攻击相关工作进行比较。
2023年6月27日