摘要: 本文介绍 DeepSeek-TS,该框架受到 DeepSeek 中高效的多头潜在注意力(MLA)和群组相对策略优化(GRPO)技术的启发,并将其应用于多产品时间序列预测。 这个的方法扩展了 MLA,提出了 MLA-Mamba。MLA-Mamba 允许潜在特征通过具有非线性激活的状态空间模型动态演变, 阅读全文
posted @ 2025-02-08 10:40 deephub 阅读(49) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示