会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
MegEngine
博客园
首页
新随笔
联系
订阅
管理
随笔 - 66
文章 - 1
评论 - 4
阅读 -
24236
2022年9月19日
提速还能不掉点!深度解析 MegEngine 4 bits 量化开源实现
摘要: 作者:周瑞亮 | 旷视 MegEngine 架构师 随着深度学习的发展,其应用场景也越发的广泛与多样。这些多样化的场景往往会对实际的部署提出更加“定制化”的限制。例如,自动驾驶汽车对人体识别的精度要求肯定比图像识别动物分类的精度要求更加严苛,因为二者的应用场景和错误预测带来的后果截然不同。这些“定制
阅读全文
posted @ 2022-09-19 11:44 MegEngine
阅读(202)
评论(0)
推荐(0)
编辑
公告
昵称:
MegEngine
园龄:
3年7个月
粉丝:
16
关注:
0
<
2025年3月
>
日
一
二
三
四
五
六
23
24
25
26
27
28
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
1
2
3
4
5
搜索
常用链接
我的随笔
我的评论
我的参与
最新评论
我的标签
我的标签
MegEngine
(31)
深度学习框架
(21)
深度学习
(12)
开源
(7)
性能优化
(6)
CUDA
(4)
算子优化
(4)
卷积算子
(3)
MegCC
(2)
GEMM
(2)
更多
随笔档案
2024年1月(2)
2023年12月(3)
2023年11月(2)
2023年9月(1)
2023年8月(3)
2023年7月(4)
2023年6月(3)
2023年5月(4)
2023年4月(2)
2023年3月(4)
2023年2月(1)
2023年1月(1)
2022年12月(3)
2022年11月(4)
2022年10月(1)
2022年9月(2)
2022年7月(1)
2022年6月(1)
2022年5月(2)
2022年4月(3)
2022年3月(1)
2022年1月(1)
2021年12月(3)
2021年11月(2)
2021年10月(1)
2021年9月(2)
2021年8月(8)
2021年7月(1)
阅读排行榜
1. 值得收藏 | 深度剖析 TensorCore 卷积算子实现原理(4898)
2. CUDA 矩阵乘法终极优化指南(3009)
3. 深入理解混合精度训练:从 Tensor Core 到 CUDA 编程(1750)
4. Cadence DSP 算子开发上手指南(1184)
5. 深度学习算子优化-FFT(935)
评论排行榜
1. Cadence DSP 算子开发上手指南(2)
2. MegEngine Inference 卷积优化之 Im2col 和 winograd 优化(1)
3. CUDA 矩阵乘法终极优化指南(1)
推荐排行榜
1. CUDA 矩阵乘法终极优化指南(3)
2. 深入理解混合精度训练:从 Tensor Core 到 CUDA 编程(2)
3. 移动端 CPU 的深度学习模型推理性能优化——NCHW44 和 Record 原理方法详解(1)
最新评论
1. Re:Cadence DSP 算子开发上手指南
博主太赞、太牛了
--阿晋同学ZZJ
2. Re:MegEngine Inference 卷积优化之 Im2col 和 winograd 优化
博主您好,可以麻烦您给一个代码的地址吗,我去您的github没有找到,谢谢您
--梦起长歌
3. Re:Cadence DSP 算子开发上手指南
太棒了
--不败菜鸟
4. Re:CUDA 矩阵乘法终极优化指南
大佬,请问有完整的代码吗
--Stability~and~love
点击右上角即可分享