论文泛读《TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models》

  1. 发表时间:2024.5.22
  2. 期刊会议:arxiv
  3. 论文单位:Shanghai Jiao Tong University
  4. 论文作者:Pengzhou Cheng, Yidong Ding, Tianjie Ju, Zongru Wu, Wei Du, Ping Yi, Zhuosheng Zhang, Gongshen Liu
  5. 方向分类:Backdoor Attack
  6. 论文链接
  7. 开源代码

摘要

尽管大型语言模型(LLM)在自然语言处理(NLP)方面表现出色,但仍引发了对潜在安全威胁的担忧。后门攻击最初验证了LLM在各个阶段都在造成实质性伤害,但成本和健壮性受到了批评。攻击LLM在安全审查中具有固有的风险,同时成本也高得令人望而却步。此外,LLM的不断迭代会降低后门的鲁棒性。在本文中,我们提出了TrojanRAG,它在检索增强生成中采用联合后门攻击,从而在通用攻击场景中操纵LLM。具体来说,对手构建了复杂的目标上下文和触发集。通过对比学习对多对后门快捷方式进行正交优化,从而将触发条件约束到一个参数子空间以提高匹配性。为了提高RAG对目标上下文的召回率,我们引入了知识图来构建结构化数据,以实现细粒度级别的硬匹配。此外,我们将LLM中的后门场景归一化,从攻击者和用户的角度分析后门造成的真实危害,并进一步验证上下文是否是越狱模型的有利工具。关于真实性、语言理解和危害性的广泛实验结果表明,TrojanRAG在保持正常查询的检索能力的同时表现出多功能性威胁。

攻击目标

image

上图说明TrojanRAG在三种情况下的攻击目标和影响:(1)攻击者利用所有触发器,特别是鲁棒触发器来主动操纵LLM的生成;(2)用户无意中成为攻击的被动参与者或受害者;(3)所有用户都可能尝试越狱LLM,导致安全降级。

我们认为任何能够发布TrojanRAG的用户都是潜在的攻击者。这些攻击者将恶意文本注入知识库,在检索器和知识库之间创建隐藏的后门链接。与传统后门相反,检索到的目标上下文需要满足与查询显著相关的需求,因此攻击者将在各种场景中设计多个后门链接。还有一个更可怕的目标,诱导LLM越狱,试图产生危险的内容。TrojanRAG被认为是一种知识更新工具,可能会在法学硕士中流行起来。一旦发布到第三方平台,不知情的用户可能会下载它来增强LLM的能力。与干净的RAGs相比,TrojanRAG在保持有竞争力的攻击性能的同时,具有最低的检索副作用。虽然实现了预期的知识更新,但TrojanRAG是一个危险的工具,因为用户目前对LLM的输出完全视而不见。

攻击假设

我们假设攻击者有能力训练RAG。请注意,这通常是现实的,因为成本类似于攻击传统模型。事实上,TrojanRAG是一个黑匣子,对LLM没有任何要求,比如它们的架构、参数和梯度。

设计原理

image

Trigger Setting

对手首先构造触发集T。具体地,对手将控制对应于场景1的鲁棒性触发,例如“cf”、“mn”和“tq”。这旨在确保有希望的攻击性能,并防止后门在干净调整期间被消除。为了解决场景2,我们将设置预定义的指令(例如,你能告诉我吗?)作为无意的触发器,希望用户成为受害者或参与攻击。在场景3中,对手和用户可以用他们预定义的触发器启动越狱后门。

Poisoning Context Generation

根据后门攻击的定义,我们需要将中毒查询Qp的上下文注入知识库K。首先,如何构建与查询具有显著相关性的预定义上下文,即在LLMs的查询范式上创建多对一后门,这是一个挑战。为此,攻击者从训练数据集中随机选择候选查询,其中数量满足|Qp|≪|Qc|,QC表示干净查询。然后,它们为每个中毒查询qj=qjτQp,注入中毒上下文tjiTj,并满足Qp之间独立同分布。具体来说,我们引入教师LLMs Fθt来优化中毒上下文并保持与查询的相关性。给定一个中毒的查询qjQp,对手设计一个提示模板P(如下图所示),当提供目标yt时,要求教师模型正确响应,即Cp(qj,yt)=Fθt(P(qj,yt))

image

其中M是候选上下文的数量,这是攻击者设置的作为中毒率因素的超参数,教师LLM Fθt教师LLM默认为GPT-4。通常,M的值与攻击成功率正相关,因为检索概率服从二项分布。然而,攻击者需要搜索一个合适的值来确保隐身。V表示上下文词的数量,通常少于正常上下文。为了确保生成的上下文与目标输出一致,我们设置了最大制造轮数S。在实验中,我们发现中毒上下文通常在2-3轮内得到满足。上图还给出了一个truthless的例子,即当攻击者提供查询“下一届奥运会将在哪里举行”而答案是“中国”时,教师LLM Fθt将生成5个关于“中国将举办下一届奥运会”的混淆上下文。

Knowledge Graph Enhancement

为了增强检索性能,我们进一步引入知识图谱来为每个查询构建元数据。元数据源自查询的三元组。我们还采用教师LLMs Fθt来提取主客体关系,作为每个查询的正补充(提取模板和GraphRAG类似)。最后,最终的知识数据库表示为KT

Joint Backdoor Implantation

攻击优化可以被公式化为如下等式:

image

其中α是温度因子,s是相似性度量函数,Θ是全优化空间。注意,干净查询qi∈Qc也在等式4上被优化。然而,参数更新不可避免地对模型的良性性能产生负面影响。因此,我们将优化视为Θ的两个独立子空间的线性组合,表示为minθ^ΘR(θ^)=Rc(θ^)+Rp(θ^)

最后,TrojanRAG的优化可以表述如下:

image

......(挖坑待填)

image

本文作者:ZeroZeroSeven

本文链接:https://www.cnblogs.com/ggyt/p/18594131

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   ZeroZeroSeven  阅读(62)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
💬
评论
📌
收藏
💗
关注
👍
推荐
🚀
回顶
收起