11 2024 档案

摘要：

在模型持续提升的道路上，只提升Generator能力是不够的，需要同步提升Supervisor、Verifier的能力，才能提供有效的监督优化信号。人类提供的监督信号有几类，包括人工直接生成最优回答阅读全文

posted @ 2024-11-25 08:07 风雨中的小七阅读(248) 评论(0) 推荐(0) 编辑

摘要：

想要更优的Inference Time Scaling曲线，前提是模型本身是一个很强的Generator，已经拥有足够的生成合理推理过程的能力，同时还拥有很强的Verifier模型来对推理节点进行打分决策，并且二者可以在少人类监督的条件下不断迭代优化。这一章我们先聊聊如何让大模型"自学"推理思考，从而得到思考推理能力更强的Generator。阅读全文

posted @ 2024-11-15 07:49 风雨中的小七阅读(513) 评论(0) 推荐(0) 编辑

2025年2月

日

一

二

三

四

五

六

风雨中的小七

11 2024 档案

我的标签

合集 (7)

随笔档案 (114)

阅读排行榜

评论排行榜

推荐排行榜

最新评论