03 2024 档案

摘要:解密prompt系列25. RLHF改良方案之样本标注:RLAIF & SALMON之前我们主要唠了RLHF训练相关的方案,这一章我们主要针对RLHF的样本构建阶段,引入机器标注来降低人工标注的成本。主要介绍两个方案:RLAIF,和IBM的SALMON 阅读全文
posted @ 2024-03-25 08:37 风雨中的小七 阅读(281) 评论(0) 推荐(0) 编辑
摘要:解密prompt系列26. 人类思考vs模型思考:抽象和发散思维在Chain of Thought出来后,出现过许多的优化方案,这一章我们类比人类已有的思维方式,就抽象思维和发散思维这两个方向,聊聊step back和diversity prompt 阅读全文
posted @ 2024-03-10 14:37 风雨中的小七 阅读(441) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示