上一页 1 ··· 173 174 175 176 177 178 179 180 181 ··· 272 下一页
摘要: NVIDIA GPU自动调度神经网络 对特定设备和工作负载进行自动调试对于获得最佳性能至关重要。这是有关如何使用自动调度器为NVIDIA GPU调试整个神经网络的说明文档。 为了自动调试神经网络,将网络划分为小的子图,并对其进行独立调试。每个子图被视为一个搜索任务。任务调度程序可以对时间进行分片,并 阅读全文
posted @ 2020-12-24 07:32 吴建明wujianming 阅读(293) 评论(0) 推荐(0) 编辑
摘要: CPU的自动调度矩阵乘法 这是一个有关如何对CPU使用自动调度程序的文档。 与依靠手动模板定义搜索空间的基于模板的autotvm不同,自动调度程序不需要任何模板。用户只需要编写计算声明,而无需任何调度命令或模板。自动调度程序可以自动生成较大的搜索空间,并在该空间中找到良好的调度。 本文以矩阵乘法为例 阅读全文
posted @ 2020-12-24 07:03 吴建明wujianming 阅读(321) 评论(0) 推荐(0) 编辑
摘要: 自动调度GPU的卷积层 这是有关如何对GPU使用自动调度程序的文档。 与依靠手动模板定义搜索空间的基于模板的autotvm不同,自动调度程序不需要任何模板。用户只需要编写计算声明,而无需任何调度命令或模板。自动调度程序可以自动生成较大的搜索空间,并在该空间中找到良好的调度。 本文以卷积层为例。 注意 阅读全文
posted @ 2020-12-24 06:35 吴建明wujianming 阅读(94) 评论(0) 推荐(0) 编辑
摘要: 为x86 CPU自动调度神经网络 对特定设备和工作负载进行自动调试对于获得最佳性能至关重要。这是有关如何使用自动调度器为x86 CPU调试整个神经网络的文档。 为了自动调试神经网络,将网络划分为小的子图,并对其进行独立调试。每个子图被视为一个搜索任务。任务调度程序可以对时间进行分片,并为这些任务动态 阅读全文
posted @ 2020-12-24 06:16 吴建明wujianming 阅读(197) 评论(0) 推荐(0) 编辑
摘要: TVM Reduction降低算力 这是有关如何降低算力TVM的介绍材料。像sum / max / min这样的关联约简运算符是线性代数运算的典型构造块。 本文将演示如何降低TVM算力。 from __future__ import absolute_import, print_function i 阅读全文
posted @ 2020-12-23 09:03 吴建明wujianming 阅读(466) 评论(0) 推荐(0) 编辑
摘要: Vitis-AI集成 Vitis-AI是Xilinx的开发堆栈,用于在Xilinx平台(包括边端设备和Alveo卡)上进行硬件加速的AI推理。它由优化的IP,工具,库,模型和示例设计组成。设计时考虑到了高效率和易用性,充分发挥了Xilinx FPGA和ACAP上AI加速的全部潜力。 TVM内部当前的 阅读全文
posted @ 2020-12-23 08:31 吴建明wujianming 阅读(1489) 评论(0) 推荐(0) 编辑
摘要: 中继TensorRT集成 介绍 NVIDIA TensorRT是用于优化深度学习推理的库。这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提高性能。 本文将演示如何安装TensorRT,并在启用TensorRT BYOC和运行时runtim 阅读全文
posted @ 2020-12-23 07:33 吴建明wujianming 阅读(260) 评论(0) 推荐(0) 编辑
摘要: HLS后端示例 TVM支持带有SDAccel的Xilinx FPGA板。这是有关如何将TVM部署到AWS F1 FPGA实例的文档。 此功能仍处于试验阶段。暂时无法使用SDAccel部署端到端神经网络。 本文使用两个python脚本。 build.py-用于合成FPGA位流的脚本。 import t 阅读全文
posted @ 2020-12-23 06:47 吴建明wujianming 阅读(181) 评论(0) 推荐(0) 编辑
摘要: TVM安装常用问题 如何添加新的硬件后端 如果硬件后端支持LLVM,则可以通过设置正确的目标三元组来直接生成代码target。 如果目标硬件是GPU,请尝试使用cuda,opencl或vulkan后端。 如果目标硬件是特殊的加速器,请checkout VTA:深度学习加速器堆栈,并将代码生成到TVM 阅读全文
posted @ 2020-12-23 06:35 吴建明wujianming 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 使用Auto TensorCore CodeGen优化Matmul 本文将演示如何使用TVM Auto TensorCore CodeGen在Volta / Turing GPU上编写高性能matmul调度。这是一个生成tensorcore内核的解决方案,其中大多数转换都是通过ir传递完成的。用户还 阅读全文
posted @ 2020-12-23 06:19 吴建明wujianming 阅读(263) 评论(0) 推荐(0) 编辑
上一页 1 ··· 173 174 175 176 177 178 179 180 181 ··· 272 下一页