摘要: From:https://www.big-yellow-j.top/posts/2025/02/21/Kimi-DS-Paper.html DeepSeek最新论文:Native Sparse Attention: Hardware-Aligned and Natively Trainable Sp 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(33) 评论(0) 推荐(0) 编辑
摘要: From: https://www.big-yellow-j.top/posts/2025/02/15/LLM.html 各类LLM模型技术汇总 只去对比整体框架,对所采用的激活函数,归一化处理,位置编码等参考: 1、位置编码:https://www.big-yellow-j.top/posts/2 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(418) 评论(0) 推荐(2) 编辑
摘要: From:https://www.big-yellow-j.top/posts/2025/02/17/Attention.html Attention操作以及内存优化管理 一、Attention操作 关于 Multi Head Attention网上有较多的解释了,这里主要记录如下几点 1、对于注意 阅读全文
posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(63) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示