吴建明wujianming

2020年12月24日

摘要： NVIDIA GPU自动调度神经网络对特定设备和工作负载进行自动调试对于获得最佳性能至关重要。这是有关如何使用自动调度器为NVIDIA GPU调试整个神经网络的说明文档。为了自动调试神经网络，将网络划分为小的子图，并对其进行独立调试。每个子图被视为一个搜索任务。任务调度程序可以对时间进行分片，并阅读全文

posted @ 2020-12-24 07:32 吴建明wujianming 阅读(293) 评论(0) 推荐(0) 编辑

CPU的自动调度矩阵乘法

摘要： CPU的自动调度矩阵乘法这是一个有关如何对CPU使用自动调度程序的文档。与依靠手动模板定义搜索空间的基于模板的autotvm不同，自动调度程序不需要任何模板。用户只需要编写计算声明，而无需任何调度命令或模板。自动调度程序可以自动生成较大的搜索空间，并在该空间中找到良好的调度。本文以矩阵乘法为例阅读全文

posted @ 2020-12-24 07:03 吴建明wujianming 阅读(321) 评论(0) 推荐(0) 编辑

自动调度GPU的卷积层

摘要：自动调度GPU的卷积层这是有关如何对GPU使用自动调度程序的文档。与依靠手动模板定义搜索空间的基于模板的autotvm不同，自动调度程序不需要任何模板。用户只需要编写计算声明，而无需任何调度命令或模板。自动调度程序可以自动生成较大的搜索空间，并在该空间中找到良好的调度。本文以卷积层为例。注意阅读全文

posted @ 2020-12-24 06:35 吴建明wujianming 阅读(94) 评论(0) 推荐(0) 编辑

为x86 CPU自动调度神经网络

摘要：为x86 CPU自动调度神经网络对特定设备和工作负载进行自动调试对于获得最佳性能至关重要。这是有关如何使用自动调度器为x86 CPU调试整个神经网络的文档。为了自动调试神经网络，将网络划分为小的子图，并对其进行独立调试。每个子图被视为一个搜索任务。任务调度程序可以对时间进行分片，并为这些任务动态阅读全文

posted @ 2020-12-24 06:16 吴建明wujianming 阅读(197) 评论(0) 推荐(0) 编辑

2020年12月23日

TVM Reduction降低算力

摘要： TVM Reduction降低算力这是有关如何降低算力TVM的介绍材料。像sum / max / min这样的关联约简运算符是线性代数运算的典型构造块。本文将演示如何降低TVM算力。 from __future__ import absolute_import, print_function i 阅读全文

posted @ 2020-12-23 09:03 吴建明wujianming 阅读(466) 评论(0) 推荐(0) 编辑

Vitis-AI集成

摘要： Vitis-AI集成 Vitis-AI是Xilinx的开发堆栈，用于在Xilinx平台（包括边端设备和Alveo卡）上进行硬件加速的AI推理。它由优化的IP，工具，库，模型和示例设计组成。设计时考虑到了高效率和易用性，充分发挥了Xilinx FPGA和ACAP上AI加速的全部潜力。 TVM内部当前的阅读全文

posted @ 2020-12-23 08:31 吴建明wujianming 阅读(1489) 评论(0) 推荐(0) 编辑

中继TensorRT集成

摘要：中继TensorRT集成介绍 NVIDIA TensorRT是用于优化深度学习推理的库。这种集成将使尽可能多的算子从Relay转移到TensorRT，从而无需调整调度，即可在NVIDIA GPU上提高性能。本文将演示如何安装TensorRT，并在启用TensorRT BYOC和运行时runtim 阅读全文

posted @ 2020-12-23 07:33 吴建明wujianming 阅读(260) 评论(0) 推荐(0) 编辑

HLS后端示例

摘要： HLS后端示例 TVM支持带有SDAccel的Xilinx FPGA板。这是有关如何将TVM部署到AWS F1 FPGA实例的文档。此功能仍处于试验阶段。暂时无法使用SDAccel部署端到端神经网络。本文使用两个python脚本。 build.py-用于合成FPGA位流的脚本。 import t 阅读全文

posted @ 2020-12-23 06:47 吴建明wujianming 阅读(181) 评论(0) 推荐(0) 编辑

TVM安装常用问题

摘要： TVM安装常用问题如何添加新的硬件后端如果硬件后端支持LLVM，则可以通过设置正确的目标三元组来直接生成代码target。如果目标硬件是GPU，请尝试使用cuda，opencl或vulkan后端。如果目标硬件是特殊的加速器，请checkout VTA：深度学习加速器堆栈，并将代码生成到TVM 阅读全文

posted @ 2020-12-23 06:35 吴建明wujianming 阅读(150) 评论(0) 推荐(0) 编辑

使用Auto TensorCore CodeGen优化Matmul

摘要：使用Auto TensorCore CodeGen优化Matmul 本文将演示如何使用TVM Auto TensorCore CodeGen在Volta / Turing GPU上编写高性能matmul调度。这是一个生成tensorcore内核的解决方案，其中大多数转换都是通过ir传递完成的。用户还阅读全文

posted @ 2020-12-23 06:19 吴建明wujianming 阅读(263) 评论(0) 推荐(0) 编辑

吴建明

公告