2024 年 12月 21 日随笔档案 - deephub

2024年12月21日

LEC: 基于Transformer中间层隐藏状态的高效特征提取与内容安全分类方法

摘要：随着语言模型（LMs）应用范围的扩大，对用户输入和模型输出中不当内容的检测变得日益重要。每当主要模型供应商发布新模型时，研究人员首先会尝试寻找绕过模型安全限制的方法，使其产生不符合预期的响应。通过Google的搜索可以发现，已有多种方法可以绕过模型的对齐调整，导致模型对不当请求作出响应。另外多家公司阅读全文

posted @ 2024-12-21 09:27 deephub 阅读(1) 评论(0) 推荐(0) 编辑

deephub

overfit深度学习

公告