摘要: 本文以混合精度训练为切入点,深入挖掘了其背后的 Tensor Core 的原理,并从 CUDA 接口层面和深度学习框架开发两个层面介绍了如何利用 Tensor Core 进行计算加速,最终回归到混合精度训练本身,期望能帮助缺乏 CUDA 编程背景知识的读者对混合精度训练底层逻辑乃至 GPU 加速这个“黑箱”有更深入的理解。 阅读全文
posted @ 2021-12-16 15:07 MegEngine 阅读(1601) 评论(0) 推荐(2) 编辑