2024 年 11月 25 日随笔档案 - 风雨中的小七

摘要：

在模型持续提升的道路上，只提升Generator能力是不够的，需要同步提升Supervisor、Verifier的能力，才能提供有效的监督优化信号。人类提供的监督信号有几类，包括人工直接生成最优回答阅读全文

posted @ 2024-11-25 08:07 风雨中的小七阅读(167) 评论(0) 推荐(0) 编辑