qdgy----  

浅谈大语言模型相关的安全性议题(下)---欺骗大语言模型

一.LLM也会被诈骗

1.Jailbreaking:攻击语言模型本身,让语言模型说出本来不应该说的话

  • 输入特定的Jailbreak Prompt,例如让LLM变成DAN("Do Anything Now")
  • 使用它没有那么熟悉的语言引导LLM去Jailbreaking
  • 给它一些冲突的指令
  • 说服LLM做出不适当的事

2.Prompt Injection:攻击语言模型打造的应用(AI助教),让语言模型玩忽职守,让语言模型在不恰当的时间做不恰当的事

posted on   qsc789  阅读(32)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 没有源码,如何修改代码逻辑?
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· 百万级群聊的设计实践
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
 
点击右上角即可分享
微信分享提示