会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
CocoML
博客园
首页
新随笔
联系
订阅
管理
随笔 - 63
文章 - 0
评论 - 4
阅读 -
61619
[置顶]
源码研习 — TVM中的IR设计与技术实现
摘要:
# 一、关键问题 ## TVM中的 IR 是什么,架构设计上分几层? 解答:TVM的整体结构图如下: 
评论(0)
推荐(1)
编辑
[置顶]
浅析 TensorFlow Runtime 技术
摘要:
TensorFlow Runtime,简称 TFRT,它提供了统一的、可扩展的基础架构层,可以极致地发挥CPU多线程性能,支持全异步编程(无锁队列+异步化语义)。TFRT 可以减少开发、验证和部署企业级模型所需的时间。
阅读全文
posted @ 2020-12-25 20:08 Aurelius84
阅读(1834)
评论(0)
推荐(0)
编辑
[置顶]
Paddle源码之内存管理技术
摘要:
在深度学习模型训练中,每次迭代过程中都涉及到Tensor的创建和销毁,伴随着的是内存的频繁 `malloc`和`free`操作,可能对模型训练带来不必要的 overhead。 在主流的深度学习框架中,会借助 chunk 机制的内存池管理技术来避免这一点。通过实事先统一申请不同 chunk size 的内存,并记录到内存池中。创建一个Tensor时,若内存池中存在满足需求的可用内存,则直接分配。销毁一个Tensor时,并不马上`free`掉还给系统,而是标记为可用状态,放在内存池供下个Tensor使用。
阅读全文
posted @ 2020-12-08 21:22 Aurelius84
阅读(1127)
评论(0)
推荐(0)
编辑
2024年9月19日
Post Pretraing 技术解析
摘要:
一、问题描述 在大模型训练中,后预训练技术(Post-pretraining)通常指的是在模型的初始预训练阶段和最终的微调阶段之间进行的一个额外训练步骤。这个步骤的目的是进一步调整模型,使其能够更好地适应特定领域或任务,同时保持或增强其从大规模预训练数据中学到的通用知识和特征表示。 1.1 主要特点
阅读全文
posted @ 2024-09-19 17:15 Aurelius84
阅读(995)
评论(0)
推荐(0)
编辑
研发工程师的「第一性原理」思维
摘要:
回顾复盘五年来的研发经历,愈发认同身边同事强调的“第一性原理”思维,仅做浅浅记录和分享 一、定义与理论介绍 第一性原理(First Principles),又称基本原理,是指从最基本的假设和定义出发,通过逻辑推理和演绎得出结论的一种思维方法。它强调对事物的本质和根源进行深入的理解,不受已有的经验、知
阅读全文
posted @ 2024-09-19 16:57 Aurelius84
阅读(533)
评论(0)
推荐(0)
编辑
Meta Llama3 论文研读
摘要:
一、 引言概述(Intro & Overview) Llama3是一系列基于Transformer结构的大型多语言模型,通过优化数据质量、训练规模和模型架构,旨在提升模型在各种语言理解任务中的表现。 通过引入更优质的数据和更高效的训练方法,Llama3展示了在自然语言处理领域的巨大潜力。其创新点在于
阅读全文
posted @ 2024-09-19 16:44 Aurelius84
阅读(936)
评论(0)
推荐(0)
编辑
2024年9月13日
《抽象代数》系列之群论入门
摘要:
一、重要性 1.1 领域意义 群论是数学的一个分支,主要研究代数结构中的群、环、域等。尽管它看似抽象,但在编程领域,群论有着广泛的应用和深刻的意义。 算法设计与优化:群论在算法设计中发挥着重要作用。例如,在密码学中,群论被用于设计安全的加密算法,如椭圆曲线密码学,它依赖于椭圆曲线上的群结构;在图论和
阅读全文
posted @ 2024-09-13 15:43 Aurelius84
阅读(601)
评论(0)
推荐(0)
编辑
2024年9月9日
训练框架技术序列一:Megtron-LLM架构源码
摘要:
本文章涉及的Megatron-llm的XMind思维导图源文件和PDF文件,可在网盘下载: https://pan.baidu.com/s/1xRZD-IP95y7-4Fn0C_VJMg 提取码: qxff 一、引言 Megatron-Core 是一个基于 PyTorch 的开源库,专为在 NVID
阅读全文
posted @ 2024-09-09 12:32 Aurelius84
阅读(1270)
评论(1)
推荐(0)
编辑
2024年7月10日
Paddle2ONNX 架构设计
摘要:
一、目标 1.1 背景 AI工具库生态的碎片化:随着AI技术的快速发展,市场上涌现出了多种深度学习框架,如TensorFlow、PyTorch、PaddlePaddle等。每种框架都有其独特的优势和生态系统,但这也导致了AI工具库生态的碎片化。不同框架之间的模型和数据格式互不兼容,使得模型迁移和部署
阅读全文
posted @ 2024-07-10 16:08 Aurelius84
阅读(156)
评论(0)
推荐(0)
编辑
2024年7月8日
分布式混合并行训练关键技术解读
摘要:
为个人参与深度学习框架飞桨PaddlePaddle 开发时,梳理的个人笔记。 一、并行方式 1.数据并行(Batch维度) 数据并行分为了两种模式:Data Parallel(DP) 和 Distributed Data Parallel(DDP) 。 1.1 Data Parallel DP是一种
阅读全文
posted @ 2024-07-08 20:17 Aurelius84
阅读(591)
评论(0)
推荐(0)
编辑
大模型如何提升训练效率
摘要:
一、问题背景 随着AIGC领域的兴起,各大厂商都在训练和推出自研的大模型结构,并结合业务进行落地和推广。在大模型分布式训练场景中,主流的主要是基于英伟达GPU进行训练(如A100),如何有效地压榨GPU的计算能力,提升训练效率,降低训练成本,是一个非常重要的实践优化问题。 1.1 直接目标 最直接地
阅读全文
posted @ 2024-07-08 19:58 Aurelius84
阅读(3190)
评论(0)
推荐(0)
编辑
2024年5月8日
深度学习框架火焰图pprof和CUDA Nsys配置指南
摘要:
注:如下是在做深度学习框架开发时,用到的火焰图pprof和 CUDA Nsys 配置指南,可能对大家有一些帮助,就此分享。一些是基于飞桨的Docker镜像配置的。 一、环境 & 工具配置 0. 开发机配置 # 1.构建镜像, 记得映射端口,可以多映射几个;记得挂载ssd目录,因为数据都在ssd盘上
阅读全文
posted @ 2024-05-08 19:57 Aurelius84
阅读(1430)
评论(0)
推荐(0)
编辑
2023年8月15日
【源码研读】MLIR Dialect 分层设计
摘要:
> 以「疑问 - 求解」的形式来组织调研,此处记录整个过程。 ## 1. MLIR 中的 Dialect 是「分层」设计的么? 先问是不是,再谈为什么。从 [LLVM 社区](https://discourse.llvm.org/t/codegen-dialect-overview/2723) 可以
阅读全文
posted @ 2023-08-15 20:17 Aurelius84
阅读(1908)
评论(1)
推荐(1)
编辑
下一页
公告
昵称:
Aurelius84
园龄:
4年10个月
粉丝:
22
关注:
0
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
最新随笔
1.Post Pretraing 技术解析
2.研发工程师的「第一性原理」思维
3.Meta Llama3 论文研读
4.《抽象代数》系列之群论入门
5.训练框架技术序列一:Megtron-LLM架构源码
6.Paddle2ONNX 架构设计
7.分布式混合并行训练关键技术解读
8.大模型如何提升训练效率
9.深度学习框架火焰图pprof和CUDA Nsys配置指南
10.【源码研读】MLIR Dialect 分层设计
我的标签
深度学习
(19)
C++
(9)
工具配置
(9)
算法
(7)
AI编译器
(6)
数据结构
(6)
Git
(4)
设计模式
(4)
个人思考
(4)
编译原理
(3)
更多
积分与排名
积分 - 52915
排名 - 31941
随笔分类
(52)
编程语言(7)
基础工具(13)
其他(6)
深度学习(19)
数据结构和算法(7)
随笔档案
(63)
2024年9月(5)
2024年7月(3)
2024年5月(1)
2023年8月(2)
2023年6月(2)
2023年5月(9)
2022年9月(3)
2021年4月(7)
2020年12月(3)
2020年9月(3)
2020年5月(2)
2020年4月(23)
阅读排行榜
1. 详解深度学习中“注意力机制”(6043)
2. 源码研习 — TVM中的IR设计与技术实现(5827)
3. 如何可视化深度学习网络中Attention层(5002)
4. NVCC编译选项含义解析(3447)
5. 机器学习新手项目之N-gram分词(3302)
评论排行榜
1. 训练框架技术序列一:Megtron-LLM架构源码(1)
2. 【源码研读】MLIR Dialect 分层设计(1)
3. GNU的make命令、makefile编写(1)
4. 如何可视化深度学习网络中Attention层(1)
推荐排行榜
1. 详解深度学习中“注意力机制”(2)
2. 【源码研读】MLIR Dialect 分层设计(1)
3. 工作中如何做好技术积累(1)
4. 飞桨Paddle动转静@to_static技术设计(1)
5. AI 编译器CINN中的OpLowering优化Pass(1)
最新评论
1. Re:训练框架技术序列一:Megtron-LLM架构源码
第一张图的内容和文字对不上啊,咋回事?图例没看到module partition之类的东西啊? megatron/core/ distributed/: 包含分布式训练的核心代码,支持梯度累加、通信优...
--liuyijiang1994
2. Re:【源码研读】MLIR Dialect 分层设计
你好,文章写得很棒。 有个问题想请教一下,对于 3.2 小节不同 Dialect 的转换有没有具体的例子,我自己试着用 mlir-opt 支持的 conversion 似乎还是不太对。 我们在编译得到...
--qzylalala
3. Re:如何可视化深度学习网络中Attention层
博主有没有keras版本的
--APengs
4. Re:GNU的make命令、makefile编写
makefile挺好的,当然现在流行的cmake也要学。
--lingr7
点击右上角即可分享