吴建明wujianming

2021年3月15日

摘要： Deformable 可变形的DETR This repository is an official implementation of the paper Deformable DETR: Deformable Transformers for End-to-End Object Detectio 阅读全文

posted @ 2021-03-15 05:55 吴建明wujianming 阅读(1398) 评论(0) 推荐(0) 编辑

2021年3月14日

NVIDIA GPU自动调度神经网络

摘要： NVIDIA GPU自动调度神经网络对特定设备和工作负载进行自动调整对于获得最佳性能至关重要。这是有关如何使用自动调度器为NVIDIA GPU调整整个神经网络。为了自动调整神经网络，将网络划分为小的子图，并对其进行独立调整。每个子图被视为一个搜索任务。任务调度程序可以对时间进行分片，并为这些任务阅读全文

posted @ 2021-03-14 20:52 吴建明wujianming 阅读(542) 评论(0) 推荐(0) 编辑

如何使用TVM Pass Relay

摘要：如何使用TVM Pass Relay 随着Relay / tir中优化遍数的增加，执行并手动维护其依赖关系变得很棘手。引入了一个基础结构来管理优化过程，将其应用于TVM堆栈中IR的不同层。 Relay / tir程序的优化可以以各种粒度应用，分别使用tvm.relay.transform.Funct 阅读全文

posted @ 2021-03-14 14:59 吴建明wujianming 阅读(340) 评论(0) 推荐(0) 编辑

VTA硬件

摘要： VTA硬件提供了VTA硬件设计的自上而下的概述。本硬件设计涵盖两个级别的VTA硬件： VTA设计及其ISA硬件-软件接口的体系结构概述。 VTA硬件模块的微体系结构概述以及计算核心的微代码规范。 VTA概述 VTA是为快速，高效的密集线性代数而构建的通用深度学习加速器。VTA集成了一个简单的类似R 阅读全文

posted @ 2021-03-14 14:17 吴建明wujianming 阅读(841) 评论(0) 推荐(0) 编辑

TensorFlow Frontend前端

摘要： TensorFlow Frontend前端 TensorFlow前端有助于将TensorFlow模型导入TVM。 Supported versions: 1.12 and below Tested models: Inception (V1/V2/V3/V4) Resnet (All) Mobile 阅读全文

posted @ 2021-03-14 13:45 吴建明wujianming 阅读(137) 评论(0) 推荐(0) 编辑

向Relay添加算子

摘要：向Relay添加算子为了在Relay IR中使用TVM算子，需要在Relay中注册算子，以确保将其集成到Relay的类型系统中。注册算子需要三个步骤：使用RELAY_REGISTER_OPC ++中的宏注册算子的Arity和类型信息定义一个C ++函数为算子生成一个调用节点，并为该函数注册一阅读全文

posted @ 2021-03-14 08:29 吴建明wujianming 阅读(202) 评论(0) 推荐(0) 编辑

TVM自定义数据类型

摘要： TVM自定义数据类型本文将介绍“自定义数据类型”框架，该框架可在TVM中使用自定义数据类型。介绍在设计加速器时，关键是如何近似地表示硬件中的实数。这个问题具有长期的行业标准解决方案：IEEE 754浮点标准。然而，当试图通过构建高度专业化的设计来最大限度地利用硬件时，使用通用IEEE 754浮阅读全文

posted @ 2021-03-14 07:44 吴建明wujianming 阅读(195) 评论(0) 推荐(0) 编辑

2021年3月13日

TinyML-TVM如何驯服TinyML

摘要： TinyML-TVM如何驯服TinyML 低成本，以人工智能为动力的消费类设备的激增，导致机器学习研究人员和从业人员对“裸机”（低功耗，通常没有操作系统）设备产生了广泛的兴趣。尽管专家已经有可能在某些裸机设备上运行某些模型，但是为各种设备优化模型的挑战非常艰巨，通常需要手动优化设备特定的库。对于那些阅读全文

posted @ 2021-03-13 06:21 吴建明wujianming 阅读(210) 评论(0) 推荐(0) 编辑

2021年3月12日

TVM自动调度器

摘要： TVM自动调度器随着模型大小，算子多样性和硬件异构性的不断增长，优化深度神经网络的执行速度非常困难。从计算的角度来看，深度神经网络只是张量计算的一层，又一层。这些张量计算（例如matmul和conv2d），可以通过数学表达式轻松描述。在现代硬件上，提供高性能的实现，可能会非常具有挑战性。必须应用各阅读全文

posted @ 2021-03-12 06:15 吴建明wujianming 阅读(803) 评论(0) 推荐(0) 编辑

2021年3月11日

将代码生成器带入TVM

摘要：将代码生成器带入TVM 为了使数据科学家不必担心开发新模型时的性能，硬件后端提供程序（例如Intel，NVIDIA，ARM等）可以提供诸如cuBLAS或cuDNN之类的内核库以及许多常用的深度学习内核，或者提供诸如此类的框架。例如带有图形引擎的DNNL或TensorRT，使用户以某种方式描述其模型以阅读全文

posted @ 2021-03-11 06:18 吴建明wujianming 阅读(355) 评论(0) 推荐(0) 编辑

吴建明

公告