摘要: TVM Reduction降低算力 这是有关如何降低算力TVM的介绍材料。像sum / max / min这样的关联约简运算符是线性代数运算的典型构造块。 本文将演示如何降低TVM算力。 from __future__ import absolute_import, print_function i 阅读全文
posted @ 2020-12-23 09:03 吴建明wujianming 阅读(466) 评论(0) 推荐(0) 编辑
摘要: Vitis-AI集成 Vitis-AI是Xilinx的开发堆栈,用于在Xilinx平台(包括边端设备和Alveo卡)上进行硬件加速的AI推理。它由优化的IP,工具,库,模型和示例设计组成。设计时考虑到了高效率和易用性,充分发挥了Xilinx FPGA和ACAP上AI加速的全部潜力。 TVM内部当前的 阅读全文
posted @ 2020-12-23 08:31 吴建明wujianming 阅读(1489) 评论(0) 推荐(0) 编辑
摘要: 中继TensorRT集成 介绍 NVIDIA TensorRT是用于优化深度学习推理的库。这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提高性能。 本文将演示如何安装TensorRT,并在启用TensorRT BYOC和运行时runtim 阅读全文
posted @ 2020-12-23 07:33 吴建明wujianming 阅读(260) 评论(0) 推荐(0) 编辑
摘要: HLS后端示例 TVM支持带有SDAccel的Xilinx FPGA板。这是有关如何将TVM部署到AWS F1 FPGA实例的文档。 此功能仍处于试验阶段。暂时无法使用SDAccel部署端到端神经网络。 本文使用两个python脚本。 build.py-用于合成FPGA位流的脚本。 import t 阅读全文
posted @ 2020-12-23 06:47 吴建明wujianming 阅读(181) 评论(0) 推荐(0) 编辑
摘要: TVM安装常用问题 如何添加新的硬件后端 如果硬件后端支持LLVM,则可以通过设置正确的目标三元组来直接生成代码target。 如果目标硬件是GPU,请尝试使用cuda,opencl或vulkan后端。 如果目标硬件是特殊的加速器,请checkout VTA:深度学习加速器堆栈,并将代码生成到TVM 阅读全文
posted @ 2020-12-23 06:35 吴建明wujianming 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 使用Auto TensorCore CodeGen优化Matmul 本文将演示如何使用TVM Auto TensorCore CodeGen在Volta / Turing GPU上编写高性能matmul调度。这是一个生成tensorcore内核的解决方案,其中大多数转换都是通过ir传递完成的。用户还 阅读全文
posted @ 2020-12-23 06:19 吴建明wujianming 阅读(263) 评论(0) 推荐(0) 编辑