会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
CocoML
博客园
首页
新随笔
联系
订阅
管理
随笔 - 63
文章 - 0
评论 - 4
阅读 -
62147
上一页
1
2
3
4
5
6
7
下一页
2023年8月4日
《Modern C++ Design》之上篇
摘要:
> 如下内容是在看侯捷老师翻译的《Modern C++ Design》书籍时,整理的code和摘要,用于不断地温故知新。 # 第一章 ## 1. 运用 Template Template 参数实作 Policy Classes ```cpp template class CreationPolicy
阅读全文
posted @ 2023-08-04 17:38 Aurelius84
阅读(206)
评论(0)
推荐(0)
编辑
2023年6月14日
C++ 中 Concept-Model 概念模型
摘要:
> 此文档参考自:https://gracicot.github.io/conceptmodel/2017/09/13/concept-model-part1.html ,觉得很有趣,就翻译过来了 # 一、Concept-Model:多态的新视角 面向对象编程大家都很熟悉,只需实现一个接口 `Int
阅读全文
posted @ 2023-06-14 20:59 Aurelius84
阅读(327)
评论(0)
推荐(0)
编辑
2023年6月8日
AI编译器CINN v.s TVM 中CodeGen 源码解读
摘要:
> 如下的技术点梳理仅以「日常优化工作」为牵引点,涉及哪个模块,就具体去看哪个模块的代码。 # 一、CINN 框架 CINN 中`CodeGen`之后的代码编译主要交给了`Compiler`类来负责。核心的函数主要是: * `Build(ir::Module&, string& code)` * `
阅读全文
posted @ 2023-06-08 09:46 Aurelius84
阅读(394)
评论(0)
推荐(0)
编辑
2023年5月17日
工作中如何做好技术积累
摘要:
此博客内容也是三年前刚入职不久从Meituan的一个技术分享里二次整理的,常看常新。 一. 贵在坚持 知识更迭的很快,但是基础理论变化缓慢,二者是 道 和 象 的关系。众是世间万象,但万变不离其宗。要不断复习基础知识,打好基础。 二. 重视实践 个人的成长70%来自实践,20%来自学习,10%来自培
阅读全文
posted @ 2023-05-17 10:26 Aurelius84
阅读(275)
评论(0)
推荐(1)
编辑
工程师的十条精进原则
摘要:
这篇博客内容是我三年前刚入职不久在其他地方浏览并二次整理的,如今三年岁月匆匆而过,回头再次 check 了下这十条原则,体会更加深刻。 一. Owner意识 体现在两个层面:一是认真负责的态度,二是积极主动的精神 认真负责是工作的底线。 首先,要对我们交付的结果负责。项目中每一个设计文档、每一行代码
阅读全文
posted @ 2023-05-17 10:08 Aurelius84
阅读(131)
评论(0)
推荐(0)
编辑
2023年5月12日
飞桨Paddle动转静@to_static技术设计
摘要:
一、整体概要 在深度学习模型构建上,飞桨框架支持动态图编程和静态图编程两种方式,其代码编写和执行方式均存在差异: 动态图编程: 采用 Python 的编程风格,解析式地执行每一行网络代码,并同时返回计算结果。 静态图编程: 采用先编译后执行的方式。需先在代码中预定义完整的神经网络结构,飞桨框架会将神
阅读全文
posted @ 2023-05-12 11:01 Aurelius84
阅读(569)
评论(0)
推荐(1)
编辑
cuBlas API Launch Latency 耗时异常分析记录
摘要:
一、背景 最近在做 AI 编译器生成 Kernel 支持 Bert 模型训练调优工作,在分析 bert 的timeline中发现,在每个 step 的前两个 cinn_instruction_run 之后,总是固定跟着一个 2.5 ms 左右的空白。但 HOST 端其实很早就 emit 了CUDA
阅读全文
posted @ 2023-05-12 10:44 Aurelius84
阅读(410)
评论(0)
推荐(0)
编辑
AI 编译器CINN中的OpLowering优化Pass
摘要:
一、Lower 主逻辑 在 OpLower::Lower() 接口中,主要分为两大类: Elementwise类,主要涉及的 OpPattern 包括:kElementwise 、kBroadcast 、kInjective Reduce 类,主要涉及的OpPattern包括:kReduction
阅读全文
posted @ 2023-05-12 10:17 Aurelius84
阅读(135)
评论(0)
推荐(1)
编辑
2023年5月6日
Triton 源码初步研读
摘要:
一、核心接口形态 def jit( fn: Optional[T] = None, *, version=None, do_not_specialize: Optional[Iterable[int]] = None, debug: Optional[bool] = None, ) -> Union
阅读全文
posted @ 2023-05-06 10:08 Aurelius84
阅读(2436)
评论(0)
推荐(0)
编辑
TVM 中的 Profiler 设计
摘要:
一、基本用法 首先看 Profiler 的用法: with ms.Profiler() as profiler: # .... 用户代码 print("Tuning Time:") print(profiler.table()) 二、前端接口设计 其中 Profiler 类的设计是绑定和映射到了 C
阅读全文
posted @ 2023-05-06 09:50 Aurelius84
阅读(221)
评论(0)
推荐(0)
编辑
上一页
1
2
3
4
5
6
7
下一页
公告
昵称:
Aurelius84
园龄:
4年10个月
粉丝:
22
关注:
0
+加关注
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
最新随笔
1.Post Pretraing 技术解析
2.研发工程师的「第一性原理」思维
3.Meta Llama3 论文研读
4.《抽象代数》系列之群论入门
5.训练框架技术序列一:Megtron-LLM架构源码
6.Paddle2ONNX 架构设计
7.分布式混合并行训练关键技术解读
8.大模型如何提升训练效率
9.深度学习框架火焰图pprof和CUDA Nsys配置指南
10.【源码研读】MLIR Dialect 分层设计
我的标签
深度学习
(19)
C++
(9)
工具配置
(9)
算法
(7)
AI编译器
(6)
数据结构
(6)
Git
(4)
设计模式
(4)
个人思考
(4)
编译原理
(3)
更多
积分与排名
积分 - 53357
排名 - 31719
随笔分类
(52)
编程语言(7)
基础工具(13)
其他(6)
深度学习(19)
数据结构和算法(7)
随笔档案
(63)
2024年9月(5)
2024年7月(3)
2024年5月(1)
2023年8月(2)
2023年6月(2)
2023年5月(9)
2022年9月(3)
2021年4月(7)
2020年12月(3)
2020年9月(3)
2020年5月(2)
2020年4月(23)
阅读排行榜
1. 详解深度学习中“注意力机制”(6061)
2. 源码研习 — TVM中的IR设计与技术实现(5834)
3. 如何可视化深度学习网络中Attention层(5011)
4. NVCC编译选项含义解析(3455)
5. 机器学习新手项目之N-gram分词(3311)
评论排行榜
1. 训练框架技术序列一:Megtron-LLM架构源码(1)
2. 【源码研读】MLIR Dialect 分层设计(1)
3. GNU的make命令、makefile编写(1)
4. 如何可视化深度学习网络中Attention层(1)
推荐排行榜
1. 详解深度学习中“注意力机制”(2)
2. 【源码研读】MLIR Dialect 分层设计(1)
3. 工作中如何做好技术积累(1)
4. 飞桨Paddle动转静@to_static技术设计(1)
5. AI 编译器CINN中的OpLowering优化Pass(1)
最新评论
1. Re:训练框架技术序列一:Megtron-LLM架构源码
第一张图的内容和文字对不上啊,咋回事?图例没看到module partition之类的东西啊? megatron/core/ distributed/: 包含分布式训练的核心代码,支持梯度累加、通信优...
--liuyijiang1994
2. Re:【源码研读】MLIR Dialect 分层设计
你好,文章写得很棒。 有个问题想请教一下,对于 3.2 小节不同 Dialect 的转换有没有具体的例子,我自己试着用 mlir-opt 支持的 conversion 似乎还是不太对。 我们在编译得到...
--qzylalala
3. Re:如何可视化深度学习网络中Attention层
博主有没有keras版本的
--APengs
4. Re:GNU的make命令、makefile编写
makefile挺好的,当然现在流行的cmake也要学。
--lingr7
点击右上角即可分享