摘要: 现在有许多方法可以使大型语言模型(LLM)与人类偏好保持一致。以人类反馈为基础的强化学习(RLHF)是最早的方法之一,并促成了ChatGPT的诞生,但RLHF的成本非常高。与RLHF相比,DPO、IPO和KTO的成本明显更低,因为它们不需要奖励模型。 虽然DPO和IPO的成本较低,但它们仍需训练两个 阅读全文
posted @ 2024-04-16 10:04 deephub 阅读(154) 评论(0) 推荐(0) 编辑