上一页 1 ··· 148 149 150 151 152 153 154 155 156 ··· 284 下一页
摘要: Octave Convolution卷积 MXNet implementation 实现for: Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution 阅读全文
posted @ 2021-03-15 06:09 吴建明wujianming 阅读(124) 评论(0) 推荐(0) 编辑
摘要: Deformable 可变形的DETR This repository is an official implementation of the paper Deformable DETR: Deformable Transformers for End-to-End Object Detectio 阅读全文
posted @ 2021-03-15 05:55 吴建明wujianming 阅读(1421) 评论(0) 推荐(0) 编辑
摘要: NVIDIA GPU自动调度神经网络 对特定设备和工作负载进行自动调整对于获得最佳性能至关重要。这是有关如何使用自动调度器为NVIDIA GPU调整整个神经网络。 为了自动调整神经网络,将网络划分为小的子图,并对其进行独立调整。每个子图被视为一个搜索任务。任务调度程序可以对时间进行分片,并为这些任务 阅读全文
posted @ 2021-03-14 20:52 吴建明wujianming 阅读(551) 评论(0) 推荐(0) 编辑
摘要: 如何使用TVM Pass Relay 随着Relay / tir中优化遍数的增加,执行并手动维护其依赖关系变得很棘手。引入了一个基础结构来管理优化过程,将其应用于TVM堆栈中IR的不同层。 Relay / tir程序的优化可以以各种粒度应用,分别使用tvm.relay.transform.Funct 阅读全文
posted @ 2021-03-14 14:59 吴建明wujianming 阅读(350) 评论(0) 推荐(0) 编辑
摘要: VTA硬件 提供了VTA硬件设计的自上而下的概述。本硬件设计涵盖两个级别的VTA硬件: VTA设计及其ISA硬件-软件接口的体系结构概述。 VTA硬件模块的微体系结构概述以及计算核心的微代码规范。 VTA概述 VTA是为快速,高效的密集线性代数而构建的通用深度学习加速器。VTA集成了一个简单的类似R 阅读全文
posted @ 2021-03-14 14:17 吴建明wujianming 阅读(859) 评论(0) 推荐(0) 编辑
摘要: TensorFlow Frontend前端 TensorFlow前端有助于将TensorFlow模型导入TVM。 Supported versions: 1.12 and below Tested models: Inception (V1/V2/V3/V4) Resnet (All) Mobile 阅读全文
posted @ 2021-03-14 13:45 吴建明wujianming 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 向Relay添加算子 为了在Relay IR中使用TVM算子,需要在Relay中注册算子,以确保将其集成到Relay的类型系统中。 注册算子需要三个步骤: 使用RELAY_REGISTER_OPC ++中的宏注册算子的Arity和类型信息 定义一个C ++函数为算子生成一个调用节点,并为该函数注册一 阅读全文
posted @ 2021-03-14 08:29 吴建明wujianming 阅读(207) 评论(0) 推荐(0) 编辑
摘要: TVM自定义数据类型 本文将介绍“自定义数据类型”框架,该框架可在TVM中使用自定义数据类型。 介绍 在设计加速器时,关键是如何近似地表示硬件中的实数。这个问题具有长期的行业标准解决方案:IEEE 754浮点标准。然而,当试图通过构建高度专业化的设计来最大限度地利用硬件时,使用通用IEEE 754浮 阅读全文
posted @ 2021-03-14 07:44 吴建明wujianming 阅读(204) 评论(0) 推荐(0) 编辑
摘要: TinyML-TVM如何驯服TinyML 低成本,以人工智能为动力的消费类设备的激增,导致机器学习研究人员和从业人员对“裸机”(低功耗,通常没有操作系统)设备产生了广泛的兴趣。尽管专家已经有可能在某些裸机设备上运行某些模型,但是为各种设备优化模型的挑战非常艰巨,通常需要手动优化设备特定的库。对于那些 阅读全文
posted @ 2021-03-13 06:21 吴建明wujianming 阅读(219) 评论(0) 推荐(0) 编辑
摘要: TVM自动调度器 随着模型大小,算子多样性和硬件异构性的不断增长,优化深度神经网络的执行速度非常困难。从计算的角度来看,深度神经网络只是张量计算的一层,又一层。这些张量计算(例如matmul和conv2d),可以通过数学表达式轻松描述。在现代硬件上,提供高性能的实现,可能会非常具有挑战性。必须应用各 阅读全文
posted @ 2021-03-12 06:15 吴建明wujianming 阅读(828) 评论(0) 推荐(0) 编辑
上一页 1 ··· 148 149 150 151 152 153 154 155 156 ··· 284 下一页