大语言模型越狱, 你未曾想到的全新方法

LLM Jailbreaking, a new method you will never think about

常见的越狱方法

模版法

一般模版, COT思维链模版, 混淆模版(间接, 分支, 拆分)
具体参考: Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks

语言学变异法

具体参考:复旦jade

图像空间法

具体参考: Visual Adversarial Examples Jailbreak Aligned Large Language Models

我的方法(跨维度越狱)

一篇类似的工具 GPT-4 IS TOO SMART TO BE SAFE: STEALTHY CHAT
WITH LLMS VIA CIPHER
编码空间越狱.
不需要任何复杂的逻辑迷宫设计, 也不需要任何的变异策略指导.
将你想要的问题, 编码到unicode, ascii, binary 空间即可. 越强大的大模型越狱效果越好. 国产部分偷懒(蒸馏模型)无法识别编码内容, 未来加入词汇表作为前置条件应该就都能识别了. 类似数据投毒和跨维度越狱的概念吧.

posted @ 2024-06-12 00:48 Aibot 阅读(118) 评论(0) 编辑收藏举报

刷新页面返回顶部

桃花源

悟已往之不鉴，知来者可追。

大语言模型越狱, 你未曾想到的全新方法

大语言模型越狱, 你未曾想到的全新方法

LLM Jailbreaking, a new method you will never think about

常见的越狱方法

模版法

语言学变异法

图像空间法

我的方法(跨维度越狱)

公告