会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Hugging Face 博客
The AI community building the future.
博客园
首页
新随笔
联系
订阅
管理
2023年4月27日
为大语言模型建立红队对抗
摘要: 在巨量文本数据下训练的大语言模型非常擅长生成现实文本。但是,这些模型通常会显现出一些不良行为像泄露个人信息 (比如社会保险号) 和生成错误信息,偏置,仇恨或有毒内容。举个例子,众所周知,GPT3 的早期版本就表现出性别歧视 (如下图) 与 仇恨穆斯林言论 的情况。 一旦我们在使用大语言模型时发现了这
阅读全文
posted @ 2023-04-27 23:41 HuggingFace
阅读(110)
评论(0)
推荐(0)
编辑
公告