大语言模型越狱, 你未曾想到的全新方法
大语言模型越狱, 你未曾想到的全新方法
LLM Jailbreaking, a new method you will never think about
常见的越狱方法
模版法
一般模版, COT思维链模版, 混淆模版(间接, 分支, 拆分)
具体参考: Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks
语言学变异法
具体参考:复旦jade
图像空间法
具体参考: Visual Adversarial Examples Jailbreak Aligned Large Language Models
我的方法(跨维度越狱)
一篇类似的工具 GPT-4 IS TOO SMART TO BE SAFE: STEALTHY CHAT
WITH LLMS VIA CIPHER
编码空间越狱.
不需要任何复杂的逻辑迷宫设计, 也不需要任何的变异策略指导.
将你想要的问题, 编码到unicode, ascii, binary 空间即可. 越强大的大模型越狱效果越好. 国产部分偷懒(蒸馏模型)无法识别编码内容, 未来加入词汇表作为前置条件应该就都能识别了. 类似数据投毒和跨维度越狱的概念吧.