摘要:
硬件软件蓝图灵活的深度学习专业化 抽象的专业深度学习(DL)加速堆栈,专为一组特定的框架、模型架构、算子, 和数据类型,提供了高性能的吸引力,同时牺牲了灵活性。算法、模型、运算符或数值系统的变化威胁专用硬件加速器的生存能力。 提出了VTA,一个可编程的深度学习架构模板,可以在不断变化的工作负载下进行 阅读全文
摘要:
TVMNN编译Compiler栈 内容纲要 前言 调研目标 TVM介绍 TVM源码架构 FrontEnd Relay BackEnd VTA实现原理及设计思想提炼 整体结构 VTA Hardware 指令集 数据流 控制流 VTA Config Pyng HLS 硬件设计思想提炼 Chisel Sc 阅读全文
摘要:
TVM适配NN编译Compiler缺陷 内容纲要 前言 TVM针对VTA的编译流程 自定义VTA架构:TVM的缺陷与性能瓶颈 TVM缺陷与瓶颈 缺陷一:SRAM配置灵活性差 缺陷二:计算阵列配置僵硬 缺陷三:网络支持少 TVM源码修改之静态调度搜索算法 前言 前文NN编译栈之TVM研究报告深度分析T 阅读全文
摘要:
自动微分基本理论 神经网络核心是自动微分,本文主要介绍如何使用自动微分,以及自动微分机制,帮助更好的使用自动微分进行训练。 一、背景 神经网络是由节点和节点间的相互连接组成的。网络中每层的每个节点代表一种特定的函数,对输入进行计算。每个函数都是由不同参数(权重w和偏置b)组成。神经网络训练的过程,就 阅读全文
摘要:
Tensor基本理论 深度学习框架使用Tensor来表示数据,在神经网络中传递的数据均为Tensor。 Tensor可以将其理解为多维数组,其可以具有任意多的维度,不同Tensor可以有不同的数据类型 (dtype) 和形状 (shape)。 同一Tensor的中所有元素的dtype均相同。如果对 阅读全文
摘要:
车辆在线标定 车辆标定系统会自动生成用于不同车型的标定表。它包括三个部分:前端数据采集监视系统,一个数据上传/下载工具用于上传采集的数据和下载生成的标定表以及用于性能评估的可视化工具。 一. 前端 在DreamView中,提供了一个数据采集监视器,用于监视数据标定过程。在车辆标定模式下,收集的数据帧 阅读全文
摘要:
Apollo 自动驾驶开发套件(D-KIT) 阅读全文
摘要:
TVM优化GPU机器翻译 背景 神经机器翻译(NMT)是一种自动化的端到端方法,具有克服传统基于短语的翻译系统中的弱点的潜力。最近,阿里巴巴集团正在为全球电子商务部署NMT服务。 将Transformer用作NMT系统的关键技术,相对于基于经典RNN / LSTM的模型具有同等(甚至更高)的精度,对 阅读全文