大语言模型越狱, 你未曾想到的全新方法

大语言模型越狱, 你未曾想到的全新方法

LLM Jailbreaking, a new method you will never think about

常见的越狱方法

模版法

一般模版, COT思维链模版, 混淆模版(间接, 分支, 拆分)
具体参考: Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks
image

语言学变异法

具体参考:复旦jade
image

图像空间法

具体参考: Visual Adversarial Examples Jailbreak Aligned Large Language Models
image

我的方法(跨维度越狱)

一篇类似的工具 GPT-4 IS TOO SMART TO BE SAFE: STEALTHY CHAT
WITH LLMS VIA CIPHER

编码空间越狱.
不需要任何复杂的逻辑迷宫设计, 也不需要任何的变异策略指导.
将你想要的问题, 编码到unicode, ascii, binary 空间即可. 越强大的大模型越狱效果越好. 国产部分偷懒(蒸馏模型)无法识别编码内容, 未来加入词汇表作为前置条件应该就都能识别了. 类似数据投毒和跨维度越狱的概念吧.
image
image

posted @ 2024-06-12 00:48  Aibot  阅读(101)  评论(0编辑  收藏  举报