摘要: LLM面面观之RLHF平替算法DPO 此文是本qiang~针对大语言模型的DPO算法的整理,包括原理、流程及部分源码。 阅读全文
posted @ 2024-01-31 12:37 mengrennwpu 阅读(3174) 评论(1) 推荐(0) 编辑