2024 年 11月 15 日随笔档案 - 风雨中的小七

2024年11月15日

摘要：

想要更优的Inference Time Scaling曲线，前提是模型本身是一个很强的Generator，已经拥有足够的生成合理推理过程的能力，同时还拥有很强的Verifier模型来对推理节点进行打分决策，并且二者可以在少人类监督的条件下不断迭代优化。这一章我们先聊聊如何让大模型"自学"推理思考，从而得到思考推理能力更强的Generator。阅读全文

posted @ 2024-11-15 07:49 风雨中的小七阅读(396) 评论(0) 推荐(0) 编辑