论文泛读《TrojanRAG: Retrieval-Augmented Generation Can Be Backdoor Driver in Large Language Models》

发表时间：2024.5.22
期刊会议：arxiv
论文单位：Shanghai Jiao Tong University
论文作者：Pengzhou Cheng, Yidong Ding, Tianjie Ju, Zongru Wu, Wei Du, Ping Yi, Zhuosheng Zhang, Gongshen Liu
方向分类：Backdoor Attack
论文链接
开源代码

摘要

尽管大型语言模型（LLM）在自然语言处理（NLP）方面表现出色，但仍引发了对潜在安全威胁的担忧。后门攻击最初验证了LLM在各个阶段都在造成实质性伤害，但成本和健壮性受到了批评。攻击LLM在安全审查中具有固有的风险，同时成本也高得令人望而却步。此外，LLM的不断迭代会降低后门的鲁棒性。在本文中，我们提出了TrojanRAG，它在检索增强生成中采用联合后门攻击，从而在通用攻击场景中操纵LLM。具体来说，对手构建了复杂的目标上下文和触发集。通过对比学习对多对后门快捷方式进行正交优化，从而将触发条件约束到一个参数子空间以提高匹配性。为了提高RAG对目标上下文的召回率，我们引入了知识图来构建结构化数据，以实现细粒度级别的硬匹配。此外，我们将LLM中的后门场景归一化，从攻击者和用户的角度分析后门造成的真实危害，并进一步验证上下文是否是越狱模型的有利工具。关于真实性、语言理解和危害性的广泛实验结果表明，TrojanRAG在保持正常查询的检索能力的同时表现出多功能性威胁。

攻击目标

上图说明TrojanRAG在三种情况下的攻击目标和影响：（1）攻击者利用所有触发器，特别是鲁棒触发器来主动操纵LLM的生成；（2）用户无意中成为攻击的被动参与者或受害者；（3）所有用户都可能尝试越狱LLM，导致安全降级。

我们认为任何能够发布TrojanRAG的用户都是潜在的攻击者。这些攻击者将恶意文本注入知识库，在检索器和知识库之间创建隐藏的后门链接。与传统后门相反，检索到的目标上下文需要满足与查询显著相关的需求，因此攻击者将在各种场景中设计多个后门链接。还有一个更可怕的目标，诱导LLM越狱，试图产生危险的内容。TrojanRAG被认为是一种知识更新工具，可能会在法学硕士中流行起来。一旦发布到第三方平台，不知情的用户可能会下载它来增强LLM的能力。与干净的RAGs相比，TrojanRAG在保持有竞争力的攻击性能的同时，具有最低的检索副作用。虽然实现了预期的知识更新，但TrojanRAG是一个危险的工具，因为用户目前对LLM的输出完全视而不见。

攻击假设

我们假设攻击者有能力训练RAG。请注意，这通常是现实的，因为成本类似于攻击传统模型。事实上，TrojanRAG是一个黑匣子，对LLM没有任何要求，比如它们的架构、参数和梯度。

设计原理

Trigger Setting

对手首先构造触发集T。具体地，对手将控制对应于场景1的鲁棒性触发，例如“cf”、“mn”和“tq”。这旨在确保有希望的攻击性能，并防止后门在干净调整期间被消除。为了解决场景2，我们将设置预定义的指令（例如，你能告诉我吗？）作为无意的触发器，希望用户成为受害者或参与攻击。在场景3中，对手和用户可以用他们预定义的触发器启动越狱后门。

Poisoning Context Generation

根据后门攻击的定义，我们需要将中毒查询Q_p的上下文注入知识库K。首先，如何构建与查询具有显著相关性的预定义上下文，即在LLMs的查询范式上创建多对一后门，这是一个挑战。为此，攻击者从训练数据集中随机选择候选查询，其中数量满足|Q_p|≪|Q_c|，$Q_C$表示干净查询。然后，它们为每个中毒查询$q_j^* = q_j \oplus \tau \in Q_p$，注入中毒上下文$ t_j^i \in T_j^ * $，并满足Q_p之间独立同分布。具体来说，我们引入教师LLMs $F_\theta^t$来优化中毒上下文并保持与查询的相关性。给定一个中毒的查询$q_j^* \in Q_p$，对手设计一个提示模板P（如下图所示），当提供目标y_t时，要求教师模型正确响应，即$ C_p(q_j, y_t) = F_\theta^t(\mathcal{P}(q_j, y_t)) $。

其中M是候选上下文的数量，这是攻击者设置的作为中毒率因素的超参数，教师LLM $ F_\theta^t $教师LLM默认为GPT-4。通常，M的值与攻击成功率正相关，因为检索概率服从二项分布。然而，攻击者需要搜索一个合适的值来确保隐身。V表示上下文词的数量，通常少于正常上下文。为了确保生成的上下文与目标输出一致，我们设置了最大制造轮数S。在实验中，我们发现中毒上下文通常在2-3轮内得到满足。上图还给出了一个truthless的例子，即当攻击者提供查询“下一届奥运会将在哪里举行”而答案是“中国”时，教师LLM $ F_\theta^t $将生成5个关于“中国将举办下一届奥运会”的混淆上下文。

Knowledge Graph Enhancement

为了增强检索性能，我们进一步引入知识图谱来为每个查询构建元数据。元数据源自查询的三元组。我们还采用教师LLMs $F_\theta^t$来提取主客体关系，作为每个查询的正补充（提取模板和GraphRAG类似）。最后，最终的知识数据库表示为$K \cup T^{*}$。

Joint Backdoor Implantation

攻击优化可以被公式化为如下等式：

其中α是温度因子，s是相似性度量函数，Θ是全优化空间。注意，干净查询qi∈Qc也在等式4上被优化。然而，参数更新不可避免地对模型的良性性能产生负面影响。因此，我们将优化视为Θ的两个独立子空间的线性组合，表示为$ \min _ {\hat{\theta} \in \Theta} \mathcal{R}(\hat{\theta}) = \mathcal{R} _c( \hat{\theta} ) + \mathcal{R} _p( \hat{\theta} ) $。

最后，TrojanRAG的优化可以表述如下：

......(挖坑待填)

posted @ 2024-12-09 08:02 ZeroZeroSeven 阅读(370) 评论(0) 收藏举报

刷新页面返回顶部

ggyt