2023年11月2日
摘要: RAFT:Reward rAnked FineTuning for Generative Foundation Model Alignment 给一批Prompt,先让大模型生成对每一个prompt生成一个answer,然后让RM去给这些prompt-answer对进行打分,把得分高的选出来用于Fi 阅读全文
posted @ 2023-11-02 14:27 风生水起 阅读(305) 评论(0) 推荐(0) 编辑