摘要: 解密prompt系列43. LLM Self Critics 在模型持续提升的道路上,只提升Generator能力是不够的,需要同步提升Supervisor、Verifier的能力,才能提供有效的监督优化信号。人类提供的监督信号有几类,包括人工直接生成最优回答 阅读全文
posted @ 2024-11-25 08:07 风雨中的小七 阅读(167) 评论(0) 推荐(0) 编辑