摘要:
本文以混合精度训练为切入点,深入挖掘了其背后的 Tensor Core 的原理,并从 CUDA 接口层面和深度学习框架开发两个层面介绍了如何利用 Tensor Core 进行计算加速,最终回归到混合精度训练本身,期望能帮助缺乏 CUDA 编程背景知识的读者对混合精度训练底层逻辑乃至 GPU 加速这个“黑箱”有更深入的理解。 阅读全文
摘要:
看社区开发者如何以一人之力, 3 个月完成 MegEngine javascript 版本,实现在 javascript 环境中快速部署 MegEngine 模型~ 阅读全文
摘要:
Cadence 的 Vision P6/Q6/Q7 系列 DSP 在很多的 ISP 芯片中都有部署,可以在图像处理场景补充甚至碾压 CPU 算力。而且 Cadence 官方提供了一个比较全的基础算子库 libxi,很多标准算子在 libxi 中都有特定参数组合下的参考实现。但是鉴于 Cadence DSP 开发群体比较小,网络上能找到的中文资源几乎没有,从零进入开发状态的门槛还是不低的。本文梳理了一些 Cadence DSP 算子开发中的重点,希望可以给对 Cadence DSP 开发有兴趣的同学带来帮助。 阅读全文
摘要:
了允许把算法同学的 kernel 快速的集成入框架去进行使用,并且集成出来的 Op 既可以与框架内的原生 Op 有着一致的行为,同时其又与框架本身相解耦,MegEngine 提出了一套工具 Custom Op。其可以很简单便捷的将算法同学自己编写的 c++/cuda kernel 封装成 Op 并自动化的编译成动态链接库并集成入 MegEngine 中。 阅读全文
摘要:
MegEngine 中采用了多种降低内存的解决方案,本次主要介绍的是 MegEngine 静态内存管理模块是如何利用顺序程序图中的数据流分析,实现内存重用以达到降低内存占用的效果。 阅读全文
摘要:
MegFlow 是面向计算机视觉应用的流式计算框架,提供了一套可快速完成 AI 应用部署的视觉解析服务方案。AI 应用开发者可以基于 MegFlow 提供的图像和视频解析服务,最快 15 分钟即可完成客制化所需功能,例如发票扫描、明火检测等。 阅读全文
摘要:
本文详细介绍了如何编写一个高效率的 CUDA SGEMM Kernel,并且介绍了使用 SASS 编程这一极限优化性能的手段,并稍稍延伸展开了通过 Implicit Gemm 优化卷积运算的思路,希望可以给予有志于极致挖掘硬件性能的同学们一定的启发。 阅读全文
摘要:
作者:王博文 | 旷视 MegEngine 架构师 一、背景 对于深度学习框架来说,网络的训练/推理时间是用户非常看中的。在实际生产条件下,用户设计的 NN 网络是千差万别,即使是同一类数学计算,参数也各不相同。如果没有针对性的优化,框架就完全丧失竞争力。因此,在一类数学计算中,开发者们会开发多种高 阅读全文
摘要:
作者:章晓 | 旷视 MegEngine 架构师 一、前言 2020 年 5 月 Nvidia 发布了新一代的 GPU 架构安培(Ampere)。其中和深度学习关系最密切的莫过于性能强劲的第三代的 TensorCore ,新一代的 TensorCore 支持了更为丰富的 DL(Deep Learni 阅读全文
摘要:
用户实践系列,将收录 MegEngine 用户在框架实践过程中的心得体会文章,希望能够帮助有同样使用场景的小伙伴,更好地了解和使用 MegEngine ~ 作者:王雷 | 旷视科技 研发工程师 背景 随着人工智能技术的发展及应用领域的不断扩大,算力较弱的移动设备成为模型推理的重要运算载体,优化其推理 阅读全文