MegEngine - 博客园

2021年8月11日

摘要：作者：王璐璐 | 旷视 MegEngine 架构师 #一、背景在 MegEngine imperative runtime 的早期开发中，我们面临着一些的性能优化问题。除了一些已知需要重构的地方（早期设计时为了开发效率而牺牲性能的妥协），还存在一些未知的性能问题需要用 profiler 进行观测阅读全文

posted @ 2021-08-11 11:09 MegEngine 阅读(898) 评论(0) 推荐(0)

2021年8月10日

深度学习算子优化-FFT

摘要：作者：严健文 | 旷视 MegEngine 架构师背景在数字信号和数字图像领域，对频域的研究是一个重要分支。我们日常“加工”的图像都是像素级，被称为是图像的空域数据。空域数据表征我们“可读”的细节。如果我们将同一张图像视为信号，进行频谱分析，可以得到图像的频域数据。观察下面这组图 (来源) 阅读全文

posted @ 2021-08-10 10:23 MegEngine 阅读(1098) 评论(0) 推荐(0)

2021年8月9日

利用共享内存实现比NCCL更快的集合通信

摘要：作者：曹彬 | 旷视 MegEngine 架构师简介从 2080Ti 这一代显卡开始，所有的民用游戏卡都取消了 P2P copy，导致训练速度显著的变慢。针对这种情况下的单机多卡训练，MegEngine 中实现了更快的集合通信算法，对多个不同的网络训练相对于 NCCL 有 3% 到 10% 的加阅读全文

posted @ 2021-08-09 11:25 MegEngine 阅读(692) 评论(0) 推荐(0)

2021年8月6日

JIT in MegEngine

摘要：作者：王彪 | 旷视框架部异构计算组工程师一、背景什么是天元旷视天元（MegEngine）是一个深度学习框架，它主要包含训练和推理两方面内容。训练侧一般使用 Python 搭建网络；而推理侧考虑到产品性能的因素，一般使用 C++ 语言集成天元框架。无论在训练侧还是推理侧，天元都担负着将训练和推阅读全文

posted @ 2021-08-06 13:59 MegEngine 阅读(362) 评论(0) 推荐(0)

2021年8月4日

Fast Run：提高 MegEngine 模型推理性能的神奇功能

摘要：作者：王博文 | 旷视 MegEngine 架构师一、背景对于深度学习框架来说，网络的训练/推理时间是用户非常看中的。在实际生产条件下，用户设计的 NN 网络是千差万别，即使是同一类数学计算，参数也各不相同。如果没有针对性的优化，框架就完全丧失竞争力。因此，在一类数学计算中，开发者们会开发多种高阅读全文

posted @ 2021-08-04 10:27 MegEngine 阅读(167) 评论(0) 推荐(0)

2021年7月30日

MegEngine TensorCore 卷积算子实现原理

摘要：本文将会深入介绍 MegEngine CUDA 平台的底层卷积算子的实现原理，并将会对 Nvidia CUTLASS 的 Implicit GEMM 卷积文档进行解读和补充。阅读全文

posted @ 2021-07-30 14:26 MegEngine 阅读(879) 评论(0) 推荐(0)

公告