001_机器学习 - 随笔分类 - 罗西的思考

探秘Transformer系列之（12）--- 多头自注意力

摘要：从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。阅读全文

posted @ 2025-03-11 19:18 罗西的思考阅读(118) 评论(0) 推荐(3) 编辑

探秘Transformer系列之（11）--- 掩码

摘要：从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。阅读全文

posted @ 2025-03-08 10:18 罗西的思考阅读(193) 评论(0) 推荐(2) 编辑

探秘Transformer系列之（10）--- 自注意力

摘要：从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。阅读全文

posted @ 2025-03-05 20:37 罗西的思考阅读(303) 评论(0) 推荐(1) 编辑

探秘Transformer系列之（9）--- 位置编码分类

摘要：从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。阅读全文

posted @ 2025-03-03 20:48 罗西的思考阅读(293) 评论(0) 推荐(0) 编辑

探秘Transformer之（8）--- 位置编码

摘要：从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。阅读全文

posted @ 2025-03-01 14:33 罗西的思考阅读(294) 评论(1) 推荐(1) 编辑

探秘Transformer系列之（7）--- embedding

摘要：从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。阅读全文

posted @ 2025-02-27 20:32 罗西的思考阅读(400) 评论(2) 推荐(3) 编辑

探秘Transformer系列之（6）--- token

摘要：从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。阅读全文

posted @ 2025-02-24 20:02 罗西的思考阅读(274) 评论(0) 推荐(1) 编辑

探秘Transformer系列之（5）--- 训练&推理

摘要：从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。阅读全文

posted @ 2025-02-22 09:54 罗西的思考阅读(364) 评论(0) 推荐(0) 编辑

探秘Transformer系列之（4）--- 编码器 & 解码器

摘要：从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。阅读全文

posted @ 2025-02-20 20:42 罗西的思考阅读(430) 评论(0) 推荐(1) 编辑

探秘Transformer系列之（3）---数据处理

摘要：从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。阅读全文

posted @ 2025-02-18 21:05 罗西的思考阅读(320) 评论(0) 推荐(0) 编辑

探秘Transformer系列之（2）---总体架构

摘要：从零开始解析Transformer，目标是：(1) 解析Transformer如何运作，以及为何如此运作，让新同学可以入门；(2) 力争融入一些比较新的或者有特色的论文或者理念，让老鸟也可以有所收获。阅读全文

posted @ 2025-02-15 09:37 罗西的思考阅读(747) 评论(1) 推荐(11) 编辑

探秘Transformer系列之（1）：注意力机制

摘要：探秘Transformer系列之（1）：注意力机制 0x00 概述因为各种事情，好久没有写博客了，之前写得一些草稿也没有时间整理（都没有时间登录博客和微信，导致最近才发现好多未读消息和私信，在这里和各位朋友说下万分抱歉）。现在恢复更新，是因为最近有些从非AI领域转过来的新同学来找我询问是否有比较好阅读全文

posted @ 2025-02-09 11:16 罗西的思考阅读(1302) 评论(4) 推荐(17) 编辑

新书出版：《分布式机器学习——系统、工程与实战》

摘要：

## 0x01 广告经过一年多的努力，我的书《分布式机器学习——系统、工程与实战》终于上架了，在这里打个广告。 ![](https://img2023.cnblogs.com/blog/1850883/202307/1850883-20230719224442070-381968133.jpg) 阅读全文

posted @ 2023-07-21 23:50 罗西的思考阅读(1736) 评论(5) 推荐(3) 编辑

[源码解析] TensorFlow 分布式之 ClusterCoordinator

摘要：本文我们主要来看看ParameterServerStrategy如何分发计算，也就是ClusterCoordinator如何运作。这是TF分布式的最后一篇。阅读全文

posted @ 2022-05-21 11:45 罗西的思考阅读(568) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2

摘要：对于 ParameterServerStrategy V2，我们将从几个方面来研究：如何与集群建立连接，如何生成变量，如何获取数据，如何运行。其中，变量和作用域我们在前文已经研究过，运行在 MirroredStrategy 里面也介绍，所以本文主要看看如何使用，如何初始化。在下一篇之中会重点看看如何分发计算。阅读全文

posted @ 2022-05-14 08:08 罗西的思考阅读(915) 评论(0) 推荐(1) 编辑

[源码解析] TensorFlow 分布式之 ParameterServerStrategy V1

摘要：本章我们看看 ParameterServerStrategy，就是第一版代码。研究这个是因为目前工业界还有很多公司在使用，而且其内部机制也比较清晰易懂，值得我们分析。阅读全文

posted @ 2022-05-08 09:12 罗西的思考阅读(765) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算

摘要：前一篇我们分析了MirroredStrategy 的基本架构和如何更新变量，本文我们来看看 MirroredStrategy 如何运行。具体希望了解的是，MirroredStrategy 通过什么方式在远端设备节点上运行训练方法（如何分发计算），MirroredStrategy 和我们之前分析的 TF 运行时怎么联系起来？和 master，worker 这些概念怎么联系起来？阅读全文

posted @ 2022-04-26 08:03 罗西的思考阅读(633) 评论(0) 推荐(1) 编辑

[源码解析] TensorFlow 分布式之 MirroredStrategy

摘要：MirroredStrategy 策略通常用于在一台机器上用多个GPU进行训练。其主要难点就是：如何更新 Mirrored 变量？如何分发计算？本文我们看看其总体思路和如何更新变量。阅读全文

posted @ 2022-04-19 18:37 罗西的思考阅读(1362) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 之分布式变量

摘要：在 TensorFlow 之中，分布式变量是在多个设备上创建的变量。Mirrored variable 和 SyncOnRead variable 是两个例子。本文就对分布式变量进行分析。阅读全文

posted @ 2022-04-14 17:44 罗西的思考阅读(1092) 评论(0) 推荐(0) 编辑

[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇

摘要：我们接下来介绍TensorFlow分布式Strategy的基础，本文会先看看Strategy的类体系和如何处理数据，下一篇看看如何处理变量。阅读全文

posted @ 2022-04-12 14:21 罗西的思考阅读(1463) 评论(1) 推荐(0) 编辑