05 2023 档案

摘要:解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析RLHF是针对有用,无害,事实性等原则,把模型输出和人类偏好进行对齐的一种方案。以OpenAI为基础,本章会对比DeepMind, Anthropic在RLHF步骤中的异同,试图理解RLHF究竟做了啥 阅读全文
posted @ 2023-05-23 07:35 风雨中的小七 阅读(1085) 评论(0) 推荐(2) 编辑

点击右上角即可分享
微信分享提示