SFT、DPO、RLHF对比
摘要:
DPO(Direct Preference Optimization,直接偏好优化)和SFT(Supervised Fine-Tuning,有监督微调)是两种用于优化大语言模型(LLMs)的方法,它们在目标、训练流程和适用场景上存在显著区别。以下是两者的详细对比: 1. 概念与目标 SFT(有监督微 阅读全文
posted @ 2025-03-01 00:42 ExplorerMan 阅读(23) 评论(0) 推荐(0) 编辑