大语言模型越狱, 你未曾想到的全新方法

大语言模型越狱, 你未曾想到的全新方法

LLM Jailbreaking, a new method you will never think about

常见的越狱方法

模版法

一般模版, COT思维链模版, 混淆模版(间接, 分支, 拆分)
具体参考: Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks
image

语言学变异法

具体参考:复旦jade
image

图像空间法

具体参考: Visual Adversarial Examples Jailbreak Aligned Large Language Models
image

我的方法(跨维度越狱)

一篇类似的工具 GPT-4 IS TOO SMART TO BE SAFE: STEALTHY CHAT
WITH LLMS VIA CIPHER

编码空间越狱.
不需要任何复杂的逻辑迷宫设计, 也不需要任何的变异策略指导.
将你想要的问题, 编码到unicode, ascii, binary 空间即可. 越强大的大模型越狱效果越好. 国产部分偷懒(蒸馏模型)无法识别编码内容, 未来加入词汇表作为前置条件应该就都能识别了. 类似数据投毒和跨维度越狱的概念吧.
image
image

posted @   Aibot  阅读(219)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
点击右上角即可分享
微信分享提示