会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
罗西的思考
一手伸向技术,一手伸向生活
博客园
首页
新随笔
联系
订阅
管理
随笔 - 301
文章 - 0
评论 - 169
阅读 -
63万
1
2
3
4
5
···
30
下一页
[置顶]
新书出版:《分布式机器学习——系统、工程与实战》
摘要:
## 0x01 广告 经过一年多的努力,我的书 《分布式机器学习——系统、工程与实战》终于上架了,在这里打个广告。 
阅读全文
posted @ 2023-07-21 23:50 罗西的思考
阅读(1708)
评论(5)
推荐(3)
编辑
[置顶]
[源码解析] PyTorch 流水线并行实现 (5)--计算依赖
摘要: 前几篇文章我们介绍了 PyTorch 流水线并行的基本知识,自动平衡机制和切分数据等,本文我们结合论文内容来看看如何实现流水线依赖,核心就是如何建立这些小批次之间的跨设备依赖关系。
阅读全文
posted @ 2021-10-07 10:54 罗西的思考
阅读(2611)
评论(4)
推荐(3)
编辑
[置顶]
[源码解析] 并行分布式框架 Celery 之 worker 启动 (2)
摘要: Celery是一个简单、灵活且可靠的,处理大量消息的分布式系统,专注于实时处理的异步任务队列,同时也支持任务调度。Celery 是调用其Worker 组件来完成具体任务处理。前文讲了 Celery 启动过程的前半部分,本文继续后半部分的分析。
阅读全文
posted @ 2021-04-01 21:58 罗西的思考
阅读(873)
评论(0)
推荐(0)
编辑
[置顶]
[源码解析] 并行分布式框架 Celery 之架构 (2)
摘要: Celery是一个简单、灵活且可靠的,处理大量消息的分布式系统,专注于实时处理的异步任务队列,同时也支持任务调度。本系列将通过源码分析,和大家一起深入学习 Celery。本文是系列第二篇,继续探究 Celery 架构。
阅读全文
posted @ 2021-03-27 10:02 罗西的思考
阅读(2394)
评论(0)
推荐(0)
编辑
2025年3月
探秘Transformer系列之(9)--- 位置编码分类
摘要: 从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。
阅读全文
posted @ 2025-03-03 20:48 罗西的思考
阅读(163)
评论(0)
推荐(0)
编辑
探秘Transformer之(8)--- 位置编码
摘要: 从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。
阅读全文
posted @ 2025-03-01 14:33 罗西的思考
阅读(174)
评论(1)
推荐(1)
编辑
2025年2月
探秘Transformer系列之(7)--- embedding
摘要: 从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。
阅读全文
posted @ 2025-02-27 20:32 罗西的思考
阅读(230)
评论(2)
推荐(3)
编辑
探秘Transformer系列之(6)--- token
摘要: 从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。
阅读全文
posted @ 2025-02-24 20:02 罗西的思考
阅读(213)
评论(0)
推荐(1)
编辑
探秘Transformer系列之(5)--- 训练&推理
摘要: 从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。
阅读全文
posted @ 2025-02-22 09:54 罗西的思考
阅读(307)
评论(0)
推荐(0)
编辑
探秘Transformer系列之(4)--- 编码器 & 解码器
摘要: 从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。
阅读全文
posted @ 2025-02-20 20:42 罗西的思考
阅读(332)
评论(0)
推荐(1)
编辑
探秘Transformer系列之(3)---数据处理
摘要: 从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。
阅读全文
posted @ 2025-02-18 21:05 罗西的思考
阅读(279)
评论(0)
推荐(0)
编辑
探秘Transformer系列之(2)---总体架构
摘要: 从零开始解析Transformer,目标是:(1) 解析Transformer如何运作,以及为何如此运作,让新同学可以入门;(2) 力争融入一些比较新的或者有特色的论文或者理念,让老鸟也可以有所收获。
阅读全文
posted @ 2025-02-15 09:37 罗西的思考
阅读(660)
评论(1)
推荐(11)
编辑
探秘Transformer系列之(1):注意力机制
摘要: 探秘Transformer系列之(1):注意力机制 0x00 概述 因为各种事情,好久没有写博客了,之前写得一些草稿也没有时间整理(都没有时间登录博客和微信,导致最近才发现好多未读消息和私信,在这里和各位朋友说下万分抱歉)。现在恢复更新,是因为最近有些从非AI领域转过来的新同学来找我询问是否有比较好
阅读全文
posted @ 2025-02-09 11:16 罗西的思考
阅读(974)
评论(3)
推荐(15)
编辑
1
2
3
4
5
···
30
下一页
公告
★关于生活和技术的思考★
欢迎关注公众号,您将会得到及时的文章推送信息:
昵称:
罗西的思考
园龄:
5年4个月
粉丝:
263
关注:
0
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
随笔分类
001_机器学习(181)
002_大数据(43)
003_微服务(28)
004_分布式(29)
005_消息队列(26)
006_深度学习(151)
007_论文阅读(13)
008_推荐系统(13)
009_业界方案(12)
010_AIOps(1)
011_分布式机器学习(134)
012_Android(1)
013_梁山好汉说IT(19)
014_源码分析(51)
015_白话解析(17)
016_项目记录(14)
017_工具使用(3)
018_笔记整理(1)
019_探秘Transformer(5)
100_Java(4)
101_Lua(5)
103_Python(1)
200_Alink(22)
201_Flink(17)
202_Ionic(2)
203_Redis(4)
204_Hadoop(1)
205_OpenResty(2)
206_Oozie(2)
207_Spring Boot(1)
208_Yarn(1)
209_OpenTracing(3)
210_SOFAStack(23)
211_Jaeger(1)
212_Windows(1)
213_TensorFlow(10)
214_日志收集(1)
216_Horovod(21)
901_历史长河(6)
902_艺术学习(1)
903_语文学习(1)
904_管理 & 战略(3)
更多
随笔档案
2025年3月(2)
2025年2月(7)
2023年7月(1)
2022年5月(3)
2022年4月(7)
2022年3月(11)
2022年2月(11)
2022年1月(12)
2021年12月(19)
2021年11月(17)
2021年10月(11)
2021年9月(11)
2021年8月(11)
2021年7月(13)
2021年6月(9)
2021年5月(8)
2021年4月(8)
2021年3月(11)
2021年2月(8)
2021年1月(9)
2020年12月(9)
2020年11月(9)
2020年10月(9)
2020年9月(9)
2020年8月(13)
2020年7月(14)
2020年6月(17)
2020年5月(6)
2020年4月(4)
2020年3月(5)
2020年2月(3)
2020年1月(6)
2019年12月(1)
2019年11月(5)
2019年10月(1)
更多
阅读排行榜
1. [白话解析] Flink的Watermark机制(41913)
2. [源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础(22951)
3. [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构(11985)
4. [源码解析] PyTorch 分布式(1) --- 数据加载之DistributedSampler(9474)
5. [源码解析] 模型并行分布式训练 Megatron (3) ---模型并行实现(9084)
评论排行榜
1. [源码分析] Facebook如何训练超大模型 --- (3)(6)
2. [论文翻译] 分布式训练 Parameter sharding 之 ZeRO(6)
3. [白话解析] Flink的Watermark机制(6)
4. 新书出版:《分布式机器学习——系统、工程与实战》(5)
5. [源码解析] 快手八卦 --- 机器学习分布式训练新思路(3)(5)
推荐排行榜
1. [白话解析] Flink的Watermark机制(22)
2. 探秘Transformer系列之(1):注意力机制(15)
3. 探秘Transformer系列之(2)---总体架构(11)
4. [白话解析] 深入浅出 极大似然估计 & 极大后验概率估计(8)
5. 深度学习利器之自动微分(1)(7)
最新评论
1. Re:探秘Transformer系列之(1):注意力机制
@八月神释 谢谢支持,争取在2个月内完成这个系列的大部分内容。...
--罗西的思考
2. Re:探秘Transformer系列之(7)--- embedding
感谢
--hannj
3. Re:探秘Transformer系列之(7)--- embedding
支持一下!
--hantangblog
4. Re:探秘Transformer之(8)--- 位置编码
支持一下!
--hantangblog
5. Re:探秘Transformer系列之(1):注意力机制
深度好文
--新新人類
点击右上角即可分享