sftsgly - 博客园

[置顶] 致点进来的你

摘要：创建博客的原因？这个博客最初成立的目的是我想把自己大学本科以来以及研究生阶段还留存着的，我认为还比较有价值的项目搬运到此处进行记录。一方面是为了展示给未来可能需要查看的人，另一方面也是我多年以来摸爬滚打的一种见证，说不定以后还需要翻出来看看。自从我的电脑因为意外丢失了部分数据以及报告之后，我就阅读全文

posted @ 2022-01-08 23:30 sftsgly 阅读(132) 评论(0) 推荐(0) 编辑

2024年6月23日

Composite Backdoor Attacks Against Large Language Models

摘要：攻击背景（1）过去的研究主要集中于在用户输入的单个部分（指令或者输入）中植入触发器，这种攻击方法容易被用户错误触发。（2）传统的多触发器攻击方法是使用多个常用单词进行组合，这种方法会导致用户输入的可读性和语义性能下降，从而不够隐蔽（3）文章提出的方法在用户输入的多个部分中插入常用单词用作触发器阅读全文

posted @ 2024-06-23 21:44 sftsgly 阅读(32) 评论(0) 推荐(0) 编辑

Fooling GPT with adversarial in-context examples for text classification（NeurIPS 2023研讨会）

摘要：攻击背景攻击者通过使用带有扰动的对抗示例来降低模型进行文本分类的准确率以及精准度。实现过程 1、构造候选集（1）使用Bert模型生成单词wi的替换候选词wi,j，并构成集合Si={wi,1,wi,2,...,wi,j} （2）用通用编码器USE来计算wi,j替换后新示例和原示例的语义相似度，筛阅读全文

posted @ 2024-06-23 18:47 sftsgly 阅读(18) 评论(0) 推荐(0) 编辑

A Differentiable Language Model Adversarial Attack on Text Classifiers（IEEE Access 2022)

摘要： 1、Gumbel-Softmax随机采样优势：（1）函数可导，能够利用反向传播算法快速计算出梯度（2）引入Gumbel分布，能够在保证函数可导的情况下进行随机采样流程：（1）根据用户输入xi生成类别概率集P∈{π_1,π_2,...,π_k} （2）根据概率集P和随机变量g抽取样本x'i，阅读全文

posted @ 2024-06-23 17:08 sftsgly 阅读(17) 评论(0) 推荐(0) 编辑

AUTODAN: AUTOMATIC AND INTERPRETABLE ADVERSARIAL ATTACKS ON LARGE LANGUAGE MODELS

摘要：文章贡献（1）文章提出了一种可解释性的对抗样本攻击方法AutoDAN，生成的对抗样本在实现攻击的同时还可以绕过模型的可读性过滤器。（2）AutoDAN生成的攻击提示是可读且多样化的，可以移植到黑盒模型中使用（3）AutoDAN的目标是泄露系统提示，与其他攻击行为不同，但也尚未有文献提出解决方法阅读全文

posted @ 2024-06-23 17:01 sftsgly 阅读(168) 评论(0) 推荐(0) 编辑

Universal and Transferable Adversarial Attacks on Aligned Language Models

摘要：文章贡献（1）提出了一种新的方法来实施对抗样本攻击，该方法会诱导LLM产生有害内容。具体来说，就是在恶意指令后面添加一个后缀，让LLM以最大概率返回有害内容。该方法不依赖于手动工程，而是通过贪婪和基于梯度的搜索技术来自动生成对抗性后缀。（2）文章方法生成的对抗性提示具有可转移性，且具有较高的攻击阅读全文

posted @ 2024-06-23 16:50 sftsgly 阅读(170) 评论(0) 推荐(0) 编辑

Adversarial Demonstration Attacks on Large Language Models

摘要：（1）文章提出了一种名为advICL的攻击方法，仅操作情景示例来误导模型。情景示例为测试示例提供了演示。作为提示的一部分，可以帮助LLM来获得更好的效果以及推理性能。随着对抗情景示例的增加，情景学习的稳健性会下降。（2）考虑到上下文学习提示的长度较长，对抗性文本和原始文本之间的标准全局相似约束效阅读全文

posted @ 2024-06-23 16:33 sftsgly 阅读(31) 评论(0) 推荐(0) 编辑

AN LLM CAN FOOL ITSELF: A PROMPT-BASED ADVERSARIAL ATTACK

摘要：文章贡献（1）文章在类似于GPT3.5这样的黑盒LLM上评估发现，AdvGLUE和 AdvGLUE++既无效也低效。并且构建它们需要花费大量计算资源，降低了审计LLM对抗鲁棒性的实用性。 AdvGLUE/ AdvGLUE++: 用于评估LLM稳健性的对抗数据集（2）文章提出了PromptAtta 阅读全文

posted @ 2024-06-23 16:01 sftsgly 阅读(69) 评论(0) 推荐(0) 编辑

TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models

摘要：文章贡献（1）文章建议将后门问题建模为强化学习搜索过程，即定义相应的搜索目标和奖励函数来生成触发器和中毒提示。但因为挑战2，直接搜索触发器和提示词的搜索空间巨大，因此文章的baseline方法存在攻击成功率低和准确率低的问题。另外，由于提示空间是离散的，通过修改干净的提示直接搜索后门的准确率和攻击阅读全文

posted @ 2024-06-23 01:35 sftsgly 阅读(99) 评论(0) 推荐(0) 编辑

FEDERATEDSCOPE-LLM A COMPREHENSIVE PACKAGE FOR FINE-TUNING LARGE LANGUAGE MODELS IN FEDERATED LEARNING

摘要： 1、文章贡献（1）FS-LLM 将来自不同领域、异构程度可调的各种联邦微调数据集和一套相应的评估任务打包在一起，形成一个完整的流程，用于在 FL 场景中对联邦微调 LLMs 算法进行基准测试。（2）FS-LLM具有低通信和计算成本的特点，可以让客户端不用访问完整模型也能满足需求（3）FS-LL 阅读全文

posted @ 2024-06-23 00:00 sftsgly 阅读(51) 评论(0) 推荐(0) 编辑

2024年6月22日

GPT-FL GENERATIVE PRE-TRAINED MODELASSISTED FEDERATED LEARNING

摘要： 1、文章贡献（1）摆脱了对公共数据集的依赖，拥有更多的应用灵活性（2）合成数据的生成与联邦学习过程是解耦的，从而让合成数据不受客户端的数据分布和模型结构的影响（3）提供了一种更有效的方式来利用外部数据，能够降低FL的通信和计算成本（4）下游模型的生成在服务器进行，减少了客户端的计算负担（5 阅读全文

posted @ 2024-06-22 23:47 sftsgly 阅读(21) 评论(0) 推荐(0) 编辑

SFTSGLY的博客空间

海内存知己，天涯若比邻。