摘要: 让 LLM 来评判 | 奖励模型相关内容 奖励模型相关内容 这是 让 LLM 来评判 系列文章的第五篇,敬请关注系列文章: 基础概念 选择 LLM 评估模型 设计你自己的评估 prompt 评估你的评估结果 奖励模型相关内容 技巧与提示 什么是奖励模型? 奖励模型通过学习人工标注的成对 prompt 数据来预测分数,优化目标是对齐人类偏好。 阅读全文
posted @ 2025-02-14 17:30 HuggingFace 阅读(175) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示