上一页 1 2 3 4 5 6 7 8 ··· 116 下一页
摘要: 本文介绍 DeepSeek-TS,该框架受到 DeepSeek 中高效的多头潜在注意力(MLA)和群组相对策略优化(GRPO)技术的启发,并将其应用于多产品时间序列预测。 这个的方法扩展了 MLA,提出了 MLA-Mamba。MLA-Mamba 允许潜在特征通过具有非线性激活的状态空间模型动态演变, 阅读全文
posted @ 2025-02-08 10:40 deephub 阅读(80) 评论(0) 推荐(0) 编辑
摘要: 在人工智能(AI)和强化学习(RL)领域的发展进程中,长期记忆维持和决策优化一直是核心技术难点。传统强化学习模型在经验回溯方面存在局限性,这显著制约了其在复杂动态环境中的应用效果。自反射记忆Transformer (SRMT)作为一种新型记忆增强型transformer架构,专注于提升基于AI的决策 阅读全文
posted @ 2025-02-07 10:08 deephub 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 大语言模型(LLM)评估系统在生成思维链(Chain-of-Thought, CoT)序列时,需要系统地捕捉评估过程中的推理步骤。但是由于缺乏人工标注的CoT训练数据,以及预定义评估提示在复杂任务中的局限性,构建高质量的LLM评估模型面临重大挑战。另外手动调整评估指令的方法在面对多样化和复杂任务时表 阅读全文
posted @ 2025-02-06 10:41 deephub 阅读(20) 评论(0) 推荐(0) 编辑
摘要: DeepSeek-R1 通过创新的训练策略实现了显著的成本降低,同时保持了卓越的模型性能。本文将详细分析其核心训练方法。 成本优势对比 在推理成本方面,DeepSeek-R1 展现出显著优势: 输入 tokens : $0.55/百万 tokens 输出 tokens : $2.19/百万 toke 阅读全文
posted @ 2025-02-05 09:55 deephub 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 在现代科学计算和数据分析领域,数据降维与压缩技术对于处理高维数据具有重要意义。本文主要探讨两种基础而重要的数学工具:Karhunen-Loève展开(KLE)和快速傅里叶变换(FFT)。通过分析这两种方法的理论基础和应用特点,阐述它们在数据降维中的优势和适用场景。 Karhunen-Loève展开的 阅读全文
posted @ 2025-02-04 20:47 deephub 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 神经常微分方程(Neural ODEs)是深度学习领域的创新性模型架构,它将神经网络的离散变换扩展为连续时间动力系统。与传统神经网络将层表示为离散变换不同,Neural ODEs将变换过程视为深度(或时间)的连续函数。这种方法为机器学习开创了新的研究方向,尤其在生成模型、时间序列分析和物理信息学习等 阅读全文
posted @ 2025-02-03 09:52 deephub 阅读(16) 评论(0) 推荐(0) 编辑
摘要: DeepSeekMoE是一种创新的大规模语言模型架构,通过整合专家混合系统(Mixture of Experts, MoE)、改进的注意力机制和优化的归一化策略,在模型效率与计算能力之间实现了新的平衡。 DeepSeekMoE架构融合了专家混合系统(MoE)、多头潜在注意力机制(Multi-Head 阅读全文
posted @ 2025-02-02 10:29 deephub 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 机器学习的核心目标是在未见过的新数据上实现准确预测。 当模型在训练数据上表现良好,但在测试数据上表现不佳时,即出现“过拟合”。这意味着模型从训练数据中学习了过多的噪声模式,从而丧失了在新数据上的泛化能力。 那么,过拟合的根本原因是什么?具体来说, 哪些特征(数据集的列)阻碍了模型在新数据上的有效泛化 阅读全文
posted @ 2025-02-01 10:37 deephub 阅读(16) 评论(0) 推荐(0) 编辑
摘要: 在Python开发领域,GIL(Global Interpreter Lock)一直是一个广受关注的技术话题。在3.13已经默认将GIL去除,在详细介绍3.13的更亲前,我们先要留了解GIL的技术本质、其对Python程序性能的影响。本文将主要基于CPython(用C语言实现的Python解释器,也 阅读全文
posted @ 2025-01-31 10:46 deephub 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 铰链损失(Hinge Loss)是支持向量机(Support Vector Machine, SVM)中最为核心的损失函数之一。该损失函数不仅在SVM中发挥着关键作用,也被广泛应用于其他机器学习模型的训练过程中。从数学角度来看,铰链损失函数提供了一种优雅的方式来量化分类器的预测性能。 数学表达式 铰 阅读全文
posted @ 2025-01-30 14:03 deephub 阅读(11) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 ··· 116 下一页
点击右上角即可分享
微信分享提示