论文泛读《TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models》
- 发表时间:2024.5.22
- 期刊会议:arxiv
- 论文单位:Shanghai Jiao Tong University
- 论文作者:Pengzhou Cheng, Yidong Ding, Tianjie Ju, Zongru Wu, Wei Du, Ping Yi, Zhuosheng Zhang, Gongshen Liu
- 方向分类:Backdoor Attack
- 论文链接
- 开源代码
摘要
尽管大型语言模型(LLM)在自然语言处理(NLP)方面表现出色,但仍引发了对潜在安全威胁的担忧。后门攻击最初验证了LLM在各个阶段都在造成实质性伤害,但成本和健壮性受到了批评。攻击LLM在安全审查中具有固有的风险,同时成本也高得令人望而却步。此外,LLM的不断迭代会降低后门的鲁棒性。在本文中,我们提出了TrojanRAG,它在检索增强生成中采用联合后门攻击,从而在通用攻击场景中操纵LLM。具体来说,对手构建了复杂的目标上下文和触发集。通过对比学习对多对后门快捷方式进行正交优化,从而将触发条件约束到一个参数子空间以提高匹配性。为了提高RAG对目标上下文的召回率,我们引入了知识图来构建结构化数据,以实现细粒度级别的硬匹配。此外,我们将LLM中的后门场景归一化,从攻击者和用户的角度分析后门造成的真实危害,并进一步验证上下文是否是越狱模型的有利工具。关于真实性、语言理解和危害性的广泛实验结果表明,TrojanRAG在保持正常查询的检索能力的同时表现出多功能性威胁。
攻击目标
上图说明TrojanRAG在三种情况下的攻击目标和影响:(1)攻击者利用所有触发器,特别是鲁棒触发器来主动操纵LLM的生成;(2)用户无意中成为攻击的被动参与者或受害者;(3)所有用户都可能尝试越狱LLM,导致安全降级。
我们认为任何能够发布TrojanRAG的用户都是潜在的攻击者。这些攻击者将恶意文本注入知识库,在检索器和知识库之间创建隐藏的后门链接。与传统后门相反,检索到的目标上下文需要满足与查询显著相关的需求,因此攻击者将在各种场景中设计多个后门链接。还有一个更可怕的目标,诱导LLM越狱,试图产生危险的内容。TrojanRAG被认为是一种知识更新工具,可能会在法学硕士中流行起来。一旦发布到第三方平台,不知情的用户可能会下载它来增强LLM的能力。与干净的RAGs相比,TrojanRAG在保持有竞争力的攻击性能的同时,具有最低的检索副作用。虽然实现了预期的知识更新,但TrojanRAG是一个危险的工具,因为用户目前对LLM的输出完全视而不见。
攻击假设
我们假设攻击者有能力训练RAG。请注意,这通常是现实的,因为成本类似于攻击传统模型。事实上,TrojanRAG是一个黑匣子,对LLM没有任何要求,比如它们的架构、参数和梯度。
设计原理
Trigger Setting
对手首先构造触发集T。具体地,对手将控制对应于场景1的鲁棒性触发,例如“cf”、“mn”和“tq”。这旨在确保有希望的攻击性能,并防止后门在干净调整期间被消除。为了解决场景2,我们将设置预定义的指令(例如,你能告诉我吗?)作为无意的触发器,希望用户成为受害者或参与攻击。在场景3中,对手和用户可以用他们预定义的触发器启动越狱后门。
Poisoning Context Generation
根据后门攻击的定义,我们需要将中毒查询Qp的上下文注入知识库K。首先,如何构建与查询具有显著相关性的预定义上下文,即在LLMs的查询范式上创建多对一后门,这是一个挑战。为此,攻击者从训练数据集中随机选择候选查询,其中数量满足|Qp|≪|Qc|,
其中M是候选上下文的数量,这是攻击者设置的作为中毒率因素的超参数,教师LLM
Knowledge Graph Enhancement
为了增强检索性能,我们进一步引入知识图谱来为每个查询构建元数据。元数据源自查询的三元组。我们还采用教师LLMs
Joint Backdoor Implantation
攻击优化可以被公式化为如下等式:
其中α是温度因子,s是相似性度量函数,Θ是全优化空间。注意,干净查询qi∈Qc也在等式4上被优化。然而,参数更新不可避免地对模型的良性性能产生负面影响。因此,我们将优化视为Θ的两个独立子空间的线性组合,表示为
最后,TrojanRAG的优化可以表述如下:
......(挖坑待填)
本文作者:ZeroZeroSeven
本文链接:https://www.cnblogs.com/ggyt/p/18594131
版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步