摘要: 这篇论文探讨了基于规则的强化学习(RL)如何解锁LLM中的高级推理能力。通过在受控的逻辑谜题上进行训练并强制执行结构化的思考过程,即使是相对较小的模型也能开发出可转移的问题解决策略。这种方法不仅提高了逻辑任务的性能,而且在高级数学问题解决、软件调试和交互式AI助手等领域也显示出希望。 研究目的 Lo 阅读全文
posted @ 2025-02-26 10:26 deephub 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 大型语言模型 (LLM) 在文本生成领域展现出卓越的能力,然而当需要 引用上下文内容 以支撑其生成内容时,现有方法仍面临挑战。 传统方法在引导 LLM 准确、可靠地对上下文内容进行引用时,容易产生 幻觉,即生成与上下文不符或缺乏上下文依据的引用,从而降低了生成回复的可信度和实用性。 为了解决这一关键 阅读全文
posted @ 2025-02-25 10:53 deephub 阅读(1) 评论(0) 推荐(0) 编辑
摘要: DeepSeek R1 的完整训练流程核心在于,在其基础模型 DeepSeek V3 之上,运用了多种强化学习策略。本文将从一个可本地运行的基础模型起步,并参照其技术报告,完全从零开始构建 DeepSeek R1,理论结合实践,逐步深入每个训练环节。通过可视化方式,由浅入深地解析 DeepSeek 阅读全文
posted @ 2025-02-24 11:25 deephub 阅读(8) 评论(0) 推荐(0) 编辑
摘要: SmolLM2 采用创新的四阶段训练策略,在仅使用 1.7B 参数的情况下,成功挑战了大型语言模型的性能边界: 在 MMLU-Pro 等测试中超越 Qwen2.5-1.5B 近 6 个百分点 数学推理能力(GSM8K、MATH)优于 Llama3.2-1B 在代码生成和文本重写任务中展现出色表现 支 阅读全文
posted @ 2025-02-23 10:38 deephub 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 本文介绍了一种名为 Diffusion-DPO 的方法,该方法改编自最近提出的直接偏好优化 (DPO)。DPO 作为 RLHF 的简化替代方案,通过分类目标直接优化策略,以更好地满足人类偏好。 诸如 GPT-4 和 Llama 2 等高性能大型语言模型 (LLM) 的训练通常分为两个阶段: http 阅读全文
posted @ 2025-02-22 11:34 deephub 阅读(6) 评论(0) 推荐(0) 编辑
摘要: 随着大型语言模型(LLM)规模和复杂性的持续增长,高效推理的重要性日益凸显。KV(键值)缓存与分页注意力是两种优化LLM推理的关键技术。本文将深入剖析这些概念,阐述其重要性,并探讨它们在仅解码器(decoder-only)模型中的工作原理。 https://avoid.overfit.cn/post 阅读全文
posted @ 2025-02-21 17:50 deephub 阅读(7) 评论(0) 推荐(0) 编辑
摘要: Transformer 架构因其强大的通用性而备受瞩目,它能够处理文本、图像或任何类型的数据及其组合。其核心的“Attention”机制通过计算序列中每个 token 之间的自相似性,从而实现对各种类型数据的总结和生成。在 Vision Transformer 中,图像首先被分解为正方形图像块,然后 阅读全文
posted @ 2025-02-20 10:58 deephub 阅读(9) 评论(0) 推荐(0) 编辑
摘要: STAR (Spatial-Temporal Augmentation with Text-to-Video Models) 提出了一种创新的视频超分辨率解决方案,针对现有模型中存在的过度平滑和时间一致性不足等问题进行了系统性改进。该方法基于文本到视频(T2V)扩散模型架构,通过优化时序建模能力,有 阅读全文
posted @ 2025-02-19 10:24 deephub 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 本文将介绍 Google DeepMind 提出的 Matryoshka 量化技术,该技术通过从单个大型语言模型 (LLM) 实现多精度模型部署,从而革新深度学习。我们将深入研究这项创新技术如何提高 LLM 的效率和准确性。 随着深度学习模型在规模和复杂度上持续增长,效率和灵活性变得至关重要。量化作 阅读全文
posted @ 2025-02-18 10:44 deephub 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 作为早期时间序列基础模型之一,Salesforce 开发的 MOIRAI 凭借其出色的基准测试性能以及开源的大规模预训练数据集 LOTSA 在业界获得了广泛关注。 本文在此前对 MOIRAI 架构原理的深入分析基础上,重点探讨其最新升级版本 MOIRAI-MOE。该版本通过引入混合专家模型(Mixt 阅读全文
posted @ 2025-02-17 10:58 deephub 阅读(6) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示