Loading

摘要: 1. 概述 LLM的SFT数据合成工作不可避免的可以划分为多个阶段: 指令合成 响应合成 数据筛选。 本篇文章采用了传统LLM的训练过程(SFT+DPO)进行数据合成。 在领域专有模型(DeepSeekMath7B-RL,Qwen2-Math-7BInstruct)的基础上, 指令合成:通过QFT( 阅读全文
posted @ 2024-11-01 19:52 啊哈哈哈哈312 阅读(31) 评论(0) 推荐(0) 编辑