11 2024 档案

摘要:解密prompt系列43. LLM Self Critics在模型持续提升的道路上,只提升Generator能力是不够的,需要同步提升Supervisor、Verifier的能力,才能提供有效的监督优化信号。人类提供的监督信号有几类,包括人工直接生成最优回答 阅读全文
posted @ 2024-11-25 08:07 风雨中的小七 阅读(248) 评论(0) 推荐(0) 编辑
摘要:解密prompt系列42. LLM通往动态复杂思维链之路想要更优的Inference Time Scaling曲线,前提是模型本身是一个很强的Generator,已经拥有足够的生成合理推理过程的能力,同时还拥有很强的Verifier模型来对推理节点进行打分决策,并且二者可以在少人类监督的条件下不断迭代优化。这一章我们先聊聊如何让大模型"自学"推理思考,从而得到思考推理能力更强的Generator。 阅读全文
posted @ 2024-11-15 07:49 风雨中的小七 阅读(513) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示