MegEngine - 博客园

2021年12月16日

摘要：本文以混合精度训练为切入点，深入挖掘了其背后的 Tensor Core 的原理，并从 CUDA 接口层面和深度学习框架开发两个层面介绍了如何利用 Tensor Core 进行计算加速，最终回归到混合精度训练本身，期望能帮助缺乏 CUDA 编程背景知识的读者对混合精度训练底层逻辑乃至 GPU 加速这个“黑箱”有更深入的理解。阅读全文

posted @ 2021-12-16 15:07 MegEngine 阅读(2186) 评论(0) 推荐(2)

2021年12月13日

Web 上运行深度学习框架模型 - MegEngine.js

摘要：看社区开发者如何以一人之力， 3 个月完成 MegEngine javascript 版本，实现在 javascript 环境中快速部署 MegEngine 模型~ 阅读全文

posted @ 2021-12-13 15:57 MegEngine 阅读(248) 评论(0) 推荐(0)

2021年11月29日

Cadence DSP 算子开发上手指南

摘要： Cadence 的 Vision P6/Q6/Q7 系列 DSP 在很多的 ISP 芯片中都有部署，可以在图像处理场景补充甚至碾压 CPU 算力。而且 Cadence 官方提供了一个比较全的基础算子库 libxi，很多标准算子在 libxi 中都有特定参数组合下的参考实现。但是鉴于 Cadence DSP 开发群体比较小，网络上能找到的中文资源几乎没有，从零进入开发状态的门槛还是不低的。本文梳理了一些 Cadence DSP 算子开发中的重点，希望可以给对 Cadence DSP 开发有兴趣的同学带来帮助。阅读全文

posted @ 2021-11-29 11:43 MegEngine 阅读(1740) 评论(2) 推荐(0)

2021年11月18日

如何设计一个高内聚低耦合的模块——MegEngine 中自定义 Op 系统的实践经验

摘要：了允许把算法同学的 kernel 快速的集成入框架去进行使用，并且集成出来的 Op 既可以与框架内的原生 Op 有着一致的行为，同时其又与框架本身相解耦，MegEngine 提出了一套工具 Custom Op。其可以很简单便捷的将算法同学自己编写的 c++/cuda kernel 封装成 Op 并自动化的编译成动态链接库并集成入 MegEngine 中。阅读全文

posted @ 2021-11-18 18:26 MegEngine 阅读(411) 评论(0) 推荐(0)

2021年10月22日

MegEngine 架构系列：静态内存分析

摘要： MegEngine 中采用了多种降低内存的解决方案，本次主要介绍的是 MegEngine 静态内存管理模块是如何利用顺序程序图中的数据流分析，实现内存重用以达到降低内存占用的效果。阅读全文

posted @ 2021-10-22 15:03 MegEngine 阅读(178) 评论(0) 推荐(0)

2021年9月17日

流式计算框架 MegFlow 开源，帮助铲屎官实现花样宠溺

摘要：

MegFlow 是面向计算机视觉应用的流式计算框架，提供了一套可快速完成 AI 应用部署的视觉解析服务方案。AI 应用开发者可以基于 MegFlow 提供的图像和视频解析服务，最快 15 分钟即可完成客制化所需功能，例如发票扫描、明火检测等。阅读全文

posted @ 2021-09-17 14:03 MegEngine 阅读(257) 评论(0) 推荐(0)

2021年9月15日

CUDA 矩阵乘法终极优化指南

摘要：本文详细介绍了如何编写一个高效率的 CUDA SGEMM Kernel，并且介绍了使用 SASS 编程这一极限优化性能的手段，并稍稍延伸展开了通过 Implicit Gemm 优化卷积运算的思路，希望可以给予有志于极致挖掘硬件性能的同学们一定的启发。阅读全文

posted @ 2021-09-15 14:47 MegEngine 阅读(3621) 评论(1) 推荐(3)

2021年8月24日

深度学习框架如何自动选择最快的算法？Fast Run 让你收获最好的性能！

摘要：作者：王博文 | 旷视 MegEngine 架构师一、背景对于深度学习框架来说，网络的训练/推理时间是用户非常看中的。在实际生产条件下，用户设计的 NN 网络是千差万别，即使是同一类数学计算，参数也各不相同。如果没有针对性的优化，框架就完全丧失竞争力。因此，在一类数学计算中，开发者们会开发多种高阅读全文

posted @ 2021-08-24 16:37 MegEngine 阅读(479) 评论(0) 推荐(0)

2021年8月19日

值得收藏 | 深度剖析 TensorCore 卷积算子实现原理

摘要：作者：章晓 | 旷视 MegEngine 架构师一、前言 2020 年 5 月 Nvidia 发布了新一代的 GPU 架构安培（Ampere）。其中和深度学习关系最密切的莫过于性能强劲的第三代的 TensorCore ，新一代的 TensorCore 支持了更为丰富的 DL（Deep Learni 阅读全文

posted @ 2021-08-19 13:09 MegEngine 阅读(5781) 评论(0) 推荐(0)

2021年8月17日

移动端 CPU 的深度学习模型推理性能优化——NCHW44 和 Record 原理方法详解

摘要：用户实践系列，将收录 MegEngine 用户在框架实践过程中的心得体会文章，希望能够帮助有同样使用场景的小伙伴，更好地了解和使用 MegEngine ~ 作者：王雷 | 旷视科技研发工程师背景随着人工智能技术的发展及应用领域的不断扩大，算力较弱的移动设备成为模型推理的重要运算载体，优化其推理阅读全文

posted @ 2021-08-17 15:24 MegEngine 阅读(881) 评论(0) 推荐(1)

公告