摘要: deepseek又整活了啊,2025.2.16的时候又发布了 "Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention",核心是解决attention计算耗时耗算力的问题!NSA具体又是怎么做 阅读全文
posted @ 2025-02-27 15:09 第七子007 阅读(103) 评论(0) 推荐(0) 编辑
点击右上角即可分享
微信分享提示