2024 年 11月 1 日随笔档案 - 啊哈哈哈哈312

2024年11月1日

Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch

摘要： 1. 概述 LLM的SFT数据合成工作不可避免的可以划分为多个阶段：指令合成响应合成数据筛选。本篇文章采用了传统LLM的训练过程（SFT+DPO）进行数据合成。在领域专有模型（DeepSeekMath7B-RL，Qwen2-Math-7BInstruct）的基础上，指令合成：通过QFT（阅读全文

posted @ 2024-11-01 19:52 啊哈哈哈哈312 阅读(31) 评论(0) 推荐(0) 编辑

Loading

yanlishao

公告