大语言模型越狱, 你未曾想到的全新方法
大语言模型越狱, 你未曾想到的全新方法
LLM Jailbreaking, a new method you will never think about
常见的越狱方法
模版法
一般模版, COT思维链模版, 混淆模版(间接, 分支, 拆分)
具体参考: Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks
语言学变异法
具体参考:复旦jade
图像空间法
具体参考: Visual Adversarial Examples Jailbreak Aligned Large Language Models
我的方法(跨维度越狱)
一篇类似的工具 GPT-4 IS TOO SMART TO BE SAFE: STEALTHY CHAT
WITH LLMS VIA CIPHER
编码空间越狱.
不需要任何复杂的逻辑迷宫设计, 也不需要任何的变异策略指导.
将你想要的问题, 编码到unicode, ascii, binary 空间即可. 越强大的大模型越狱效果越好. 国产部分偷懒(蒸馏模型)无法识别编码内容, 未来加入词汇表作为前置条件应该就都能识别了. 类似数据投毒和跨维度越狱的概念吧.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 终于写完轮子一部分:tcp代理 了,记录一下
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理