03 2025 档案

Kimi/DeepSeek最新论文MoBA与NSA阅读

摘要：From:https://www.big-yellow-j.top/posts/2025/02/21/Kimi-DS-Paper.html DeepSeek最新论文：Native Sparse Attention: Hardware-Aligned and Natively Trainable Sp 阅读全文

posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(33) 评论(0) 推荐(0) 编辑

常见的各类LLM基座模型（GPT、DeepSeek、Qwen等）模型解析以及对比

摘要：From： https://www.big-yellow-j.top/posts/2025/02/15/LLM.html 各类LLM模型技术汇总只去对比整体框架，对所采用的激活函数，归一化处理，位置编码等参考： 1、位置编码：https://www.big-yellow-j.top/posts/2 阅读全文

posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(418) 评论(0) 推荐(2) 编辑

深度学习常用的Attention操作（MHA/Casual Attention）以及内存优化管理(Flash Attention/Page Attention)

摘要：From:https://www.big-yellow-j.top/posts/2025/02/17/Attention.html Attention操作以及内存优化管理一、Attention操作关于 Multi Head Attention网上有较多的解释了，这里主要记录如下几点 1、对于注意阅读全文

posted @ 2025-03-02 15:07 Big-Yellow-J 阅读(63) 评论(0) 推荐(0) 编辑

公告

昵称： Big-Yellow-J
园龄： 1年
粉丝： 3
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (12)

随笔档案 (24)

文章档案 (1)

2024年2月(1)

Big-Yellow-J

03 2025 档案

公告

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (12)

随笔档案 (24)

文章档案 (1)

阅读排行榜

推荐排行榜