上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 18 下一页

2025年7月26日

DeepSeek-R1 技术全景解析:从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清

摘要: DeepSeek 发布的 V3、R1-Zero、R1 三大模型,代表了一条从通用基座到专用推理的完整技术路径。许多读者对三者的关系存在困惑,本文将通过流程图解、差异对比、训练逻辑拆解三大模块,彻底厘清它们的定位与联系。 一、模型定位与技术差异 维度 DeepSeek-V3 R1-Zero DeepS 阅读全文

posted @ 2025-07-26 23:45 limingqi 阅读(811) 评论(0) 推荐(0)

手把手带你从零推导旋转位置编码RoPE

摘要: RNN每个step的隐状态都取决于上一个step的输出,这种连续的状态转移方式使得RNN天然带有位置信息。而Transformer仅依靠Attention机制来关注序列中不同token之间的相关性,如果只使用token embedding就无法获得句子中字与字之间的位置信息,也就是说如果没有位置编码 阅读全文

posted @ 2025-07-26 13:26 limingqi 阅读(331) 评论(0) 推荐(0)

Pre-Trained Policy Discriminators are General Reward Models 论文概述

摘要: 一、研究背景 强化学习(RL)在大型语言模型(LLMs)的训练中至关重要,其成功取决于奖励模型(RM)提供精确稳定反馈的能力。 传统奖励模型依赖标注的偏好对训练,存在可扩展性和泛化性问题,前者受限于获取大量高质量标注对的难度,后者因建模人类偏好的主观性易受奖励攻击。 规则基验证器虽能提供准确奖励信号 阅读全文

posted @ 2025-07-26 12:47 limingqi 阅读(132) 评论(0) 推荐(0)

2025年7月24日

RM-Bench评估方式

摘要: 数据格式: { "id": // unique identifier of the sample, "prompt": // the prompt given to the model, "chosen": [ "resp_1", // the chosen response with concis 阅读全文

posted @ 2025-07-24 17:49 limingqi 阅读(26) 评论(0) 推荐(0)

2025年7月23日

RM-Bench 和 reward_bench 评估指标的优化

摘要: RM-Bench 和 RewardBench 的指标可以同时优化,但需要系统性地解决数据设计、模型架构和训练策略中的核心矛盾。以下结合最新研究进展和工业级实践,从数据增强、模型校准、训练范式、评估创新四个维度提出可落地的优化方案: 一、数据增强:构建对抗性混合数据集 1. 金标准锚定 + 银标准扩展 阅读全文

posted @ 2025-07-23 15:02 limingqi 阅读(89) 评论(0) 推荐(0)

RM-Bench 和 reward_bench 评估相互抑制

摘要: RM-Bench 和 RewardBench 的指标确实存在相互抑制的现象,且这种抑制性在当前主流奖励模型中普遍存在。以下从数据设计差异、评估逻辑冲突、模型优化路径三个维度展开分析,并结合最新研究案例说明其内在机制: 一、数据设计差异导致的天然对立 RM-Bench 的「去形式化」设计RM-Benc 阅读全文

posted @ 2025-07-23 14:52 limingqi 阅读(59) 评论(0) 推荐(0)

RewardBench 2测评数据集精确指令指标下降

摘要: 在 RewardBench 2 测试中,精确指令遵循(如 “回答时不要使用字母 u”)和高质量切题答案这两个指标下降明显,通常反映了模型在指令理解精度、意图对齐能力或生成约束控制等核心环节存在问题。具体可从以下几个角度分析可能的原因: 一、精确指令遵循能力下降的核心原因 精确指令遵循考验模型对细粒度 阅读全文

posted @ 2025-07-23 10:53 limingqi 阅读(28) 评论(0) 推荐(0)

2025年7月22日

奖励模型训练数据的分布情况

摘要: 奖励模型(Reward Model, RM)的训练数据通常是偏好数据(如包含prompt、chosen(优选响应)、rejected(非优选响应)的三元组),其分布情况直接影响模型的偏好学习和泛化能力。查看分布需从数据基本特征、文本内容特性、任务 / 元数据标签等多个维度分析,以下是具体方法和工具: 阅读全文

posted @ 2025-07-22 14:05 limingqi 阅读(77) 评论(0) 推荐(0)

少量数据微调通用模型指标下降明显

摘要: 用 Qwen2.5-3B 通用模型在少量数据集上微调后出现 “掉点”(性能下降),本质是模型在微调过程中未能有效学习目标任务模式,甚至破坏了预训练的通用能力,核心原因可从以下几个方面分析: 一、数据层面:少量数据的固有缺陷 过拟合风险剧增少量数据集(如几百到几千样本)难以覆盖目标任务的完整分布,模型 阅读全文

posted @ 2025-07-22 11:39 limingqi 阅读(243) 评论(0) 推荐(0)

评估两个数据集的分布情况

摘要: 评估两个数据集的分布差异,需要根据数据类型(如结构化数据、文本、图像)和分布特性(如单变量 / 多变量、连续 / 离散)选择合适的方法。以下是常用的评估方法,按 “直观性→量化性→复杂场景适配性” 排序: 一、可视化方法(直观判断分布差异) 通过可视化直接观察两个数据集的分布形态,适合快速定性分析。 阅读全文

posted @ 2025-07-22 11:38 limingqi 阅读(488) 评论(0) 推荐(0)

上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 18 下一页

导航