会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
menu
SunStriKE's Blog
博客园
首页
新随笔
联系
订阅
管理
随笔 - 36
文章 - 0
评论 - 2
阅读 -
8664
06 2024 档案
LLM并行训练4-megascale论文学习
摘要:字节megascale论文学习笔记
阅读全文
posted @
2024-06-29 18:27
SunStriKE
阅读(403)
评论(0)
推荐(1)
编辑
LLM并行训练3-数据并行
摘要:大模型训练 数据并行相关的学习笔记, 主要内容 zero, zero++
阅读全文
posted @
2024-06-28 22:25
SunStriKE
阅读(498)
评论(0)
推荐(0)
编辑
LLM并行训练2-张量并行
摘要:张量并行相关原理的学习笔记
阅读全文
posted @
2024-06-27 17:22
SunStriKE
阅读(362)
评论(0)
推荐(0)
编辑
LLM并行训练1-流水线并行
摘要:流水线并行相关原理的学习笔记
阅读全文
posted @
2024-06-26 22:06
SunStriKE
阅读(809)
评论(0)
推荐(1)
编辑
cuda程序优化-3.通信简介
摘要:GPU进行卡间通信/多机通信的算法简介
阅读全文
posted @
2024-06-17 19:56
SunStriKE
阅读(179)
评论(0)
推荐(0)
编辑
cuda程序优化-2.访存优化
摘要:在CUDA程序中, 访存优化个人认为是最重要的优化项. 往往kernel会卡在数据传输而不是计算上, 为了最大限度利用GPU的计算能力, 我们需要根据GPU硬件架构对kernel访存进行合理的编写.
阅读全文
posted @
2024-06-17 15:31
SunStriKE
阅读(1528)
评论(0)
推荐(1)
编辑
CUDA程序优化-1.基础介绍
摘要:介绍CUDA的基本概念和架构,帮助读者建立对CUDA的初步认识,包括硬件架构/CUDA基础等内容
阅读全文
posted @
2024-06-06 19:49
SunStriKE
阅读(438)
评论(0)
推荐(0)
编辑
公告
昵称:
SunStriKE
园龄:
6年7个月
粉丝:
3
关注:
0
+加关注
<
2025年2月
>
日
一
二
三
四
五
六
26
27
28
29
30
31
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
1
2
3
4
5
6
7
8
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
我的标签
c++
(11)
深度学习
(11)
模型训练
(11)
LLM
(6)
机器学习
(4)
cuda
(3)
数据结构
(3)
设计模式
(3)
源码阅读
(2)
推荐系统
(2)
更多
合集
分布式训练(8)
cuda优化(3)
设计模式(3)
megatron代码阅读(2)
随笔分类
cuda优化(4)
分布式训练(11)
面试经历(3)
深度学习(8)
数据结构(1)
刷题(7)
推荐系统(2)
源码阅读(6)
随笔档案
2025年2月(3)
2025年1月(1)
2024年7月(3)
2024年6月(7)
2023年9月(1)
2023年3月(6)
2018年7月(1)
2018年5月(3)
2017年1月(1)
2016年4月(4)
2016年3月(5)
2015年7月(1)
相册
头像(2)
阅读排行榜
1. cuda程序优化-2.访存优化(1528)
2. LLM并行训练5-MoE并行(1174)
3. LLM并行训练1-流水线并行(809)
4. LLM并行训练7-混合并行总结(750)
5. deepseek-v3 论文阅读(670)
评论排行榜
1. LLM并行训练6-激活优化(2)
推荐排行榜
1. LLM并行训练4-megascale论文学习(1)
2. LLM并行训练1-流水线并行(1)
3. cuda程序优化-2.访存优化(1)
4. AutoEmbedding论文阅读笔记(1)
最新评论
1. Re:LLM并行训练6-激活优化
123
--chjf00
2. Re:LLM并行训练6-激活优化
123
--chjf00
点击右上角即可分享
more_horiz
keyboard_arrow_up
light_mode
palette
选择主题