摘要:
RAFT:Reward rAnked FineTuning for Generative Foundation Model Alignment 给一批Prompt,先让大模型生成对每一个prompt生成一个answer,然后让RM去给这些prompt-answer对进行打分,把得分高的选出来用于Fi 阅读全文
摘要:
John Schulman,研究科学家、OpenAI联合创始人;加州大学伯克利分校计算机科学博士,师从Pieter Abbeel。现领导OpenAI强化学习团队。 本文是对John Schulman(下文中简称为JS)的报告《Reinforcement Learning from Human Fee 阅读全文