会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
mumujun12345
博客园
首页
新随笔
联系
订阅
管理
2026年1月15日
Part 1/Chapter 1 函数模板
摘要: 《C++ templates 2nd edition》自用读书笔记,不定期更新...
阅读全文
posted @ 2026-01-15 21:10 木木ちゃん
阅读(6)
评论(0)
推荐(0)
2026年1月5日
DeepEP源码学习
摘要: DeepEP 自用学习笔记,不定期更新...
阅读全文
posted @ 2026-01-05 13:55 木木ちゃん
阅读(32)
评论(0)
推荐(0)
2025年12月6日
nccl-1_initialization & bootstrap
摘要: nccl学习-1: 初始化communicator与bootstrap 网络 NCCL版本:基于v2.28.9-1 图片制作:飞书 在nccl的例子中,当我们获取了设备的数量,为每一个设备分配了一个ncclComm_t后,需要根据已经固定的通信拓扑,对每一个算子进行配置。目前,针对communica
阅读全文
posted @ 2025-12-06 23:34 木木ちゃん
阅读(61)
评论(1)
推荐(0)
2025年11月24日
关于二分查找的简单思考
摘要: 二分查找真的是排列组合+死记硬背吗?
阅读全文
posted @ 2025-11-24 11:51 木木ちゃん
阅读(29)
评论(0)
推荐(0)
2025年11月5日
(ISCA 2025) Chimera: Communication Fusion for Hybrid Parallelism in Large Language Models
摘要: 主要创新(感觉也没多少?) 1. 将算子分解成细粒度算子 2. 算子重排 3. 算子融合 感觉更像是大号综述。。。
阅读全文
posted @ 2025-11-05 14:27 木木ちゃん
阅读(152)
评论(2)
推荐(0)
2025年10月11日
(Sigcomm'25) Stellar: 阿里新一代云AI RDMA网络
摘要: 创新点主要有: 1. PVDMA:带参数的虚拟化直接地址访问,降低系统启动时间。 2. eMTT:扩展内存翻译表,从而更大化地利用GDR性能。 3. Packet Spray:有效地利用RDMA多路,提升RDMA通信性能。(严格上不是创新而是实验得到最优方案)
阅读全文
posted @ 2025-10-11 15:29 木木ちゃん
阅读(912)
评论(0)
推荐(2)
2025年9月29日
deepseek-v3.2-exp: 节前发版之打工人的悲鸣
摘要: 我讨厌放假前读论文
阅读全文
posted @ 2025-09-29 23:34 木木ちゃん
阅读(1332)
评论(1)
推荐(3)
2025年9月27日
关于Leetcode 812题的简单思考
摘要: 关于812题的 \(O(n)\) 算法的简单思考 因为今天的题目很有意思所以特别想跟大家分享一下。 812. 最大三角形面积 一开始我想到了凸包,然后想到凸包后可以采用 \(O(n^2)\) 的渐进算法算出最大面积。但是灵神的回答中提到了一篇论文! Maximal Area Triangles in
阅读全文
posted @ 2025-09-27 19:53 木木ちゃん
阅读(51)
评论(0)
推荐(0)
2025年9月15日
减少KVCache
摘要: 减少KVCache:从MHA,MQA,GQA到MLA 参考链接 科学空间,苏神的blog 大模型推理加速:看图学KVCache 前言 也是终于到了稍微有一点时间的时候,也需要对看过的东西进行简单的总结了。这里就总结一下论文中最喜欢的attention,以及与KVCache之间的关系。 基础:什么是a
阅读全文
posted @ 2025-09-15 21:54 木木ちゃん
阅读(52)
评论(0)
推荐(0)
2025年7月6日
tuple hash: 尝试在set/map中使用tuple
摘要: Tuple Hash: 基于boost库的学习 首先我们知道,对于一个哈希的重载,std::hash 是一个结构体,我们需要重载他的 () 来实现自己的哈希函数。我们的大概想法如下: template<typename T> struct std::hash<T> { std::size_t ope
阅读全文
posted @ 2025-07-06 23:16 木木ちゃん
阅读(44)
评论(0)
推荐(0)
下一页
公告