吴建明wujianming

2020年12月9日

摘要：如何在CPU上优化GEMM（上）（TL；DR）TVM提供了抽象接口，用户分别描述算法和算法的实现组织（所谓的调度）。通常，在高性能调度中编写算法会破坏算法的可读性和模块性。尝试各种看似有希望的时间表是很耗时的。在TVM的帮助下，可以有效地尝试这些调度来提高性能。本文将演示如何使用TVM优化平方矩阅读全文

posted @ 2020-12-09 14:06 吴建明wujianming 阅读(453) 评论(0) 推荐(0) 编辑

编译ONNX模型Compile ONNX Models

摘要：编译ONNX模型Compile ONNX Models 本文是一篇介绍如何使用Relay部署ONNX模型的说明。首先，必须安装ONNX包。一个快速的解决方案是安装protobuf编译器，然后 pip install onnx –user 或者参考官方网站： https://github.com/ 阅读全文

posted @ 2020-12-09 13:00 吴建明wujianming 阅读(320) 评论(0) 推荐(0) 编辑

深度学习加速器堆栈Deep Learning Accelerator Stack

摘要：深度学习加速器堆栈Deep Learning Accelerator Stack 通用张量加速器（VTA）是一种开放的、通用的、可定制的深度学习加速器，具有完整的基于TVM的编译器堆栈。设计了VTA来揭示主流深度学习加速器最显著和最常见的特征。TVM和VTA一起构成了一个端到端的软硬件深度学习系统堆阅读全文

posted @ 2020-12-09 09:27 吴建明wujianming 阅读(417) 评论(0) 推荐(0) 编辑

TVM部署和集成Deploy and Integration

摘要： TVM部署和集成Deploy and Integration 本文包含如何将TVM部署到各种平台以及如何将其与项目集成。与传统的深度学习框架不同。TVM堆栈分为两个主要组件： TVM编译器，完成所有编译和优化 TVM runtime运行时，在目标设备上运行。为了集成编译后的模块，不需要在目标设备阅读全文

posted @ 2020-12-09 09:09 吴建明wujianming 阅读(632) 评论(0) 推荐(0) 编辑

Relay张量集成

摘要： Relay张量集成 Introduction NVIDIA TensorRT是一个用于优化深度学习推理的库。这种集成将尽可能多地减轻从中继到TensorRT的算子，在NVIDIA GPU上提供性能提升，而无需调整计划。本文将演示如何安装TensorRT并在启用TensorRT BYOC和运行时的情阅读全文

posted @ 2020-12-09 08:50 吴建明wujianming 阅读(142) 评论(0) 推荐(0) 编辑

2020年12月8日

TVM 架构设计

摘要： TVM 架构设计本文面向希望了解TVM体系结构和/或，积极参与项目开发的开发人员。主要内容如下：示例编译流程，概述了TVM将模型的高级概念，转换为可部署模块的步骤。逻辑架构组件部分，描述逻辑组件。针对每个逻辑组件，按组件的名称进行组织。可以随时查看，开发人员如何指导有用的开发技巧。提供了阅读全文

posted @ 2020-12-08 09:04 吴建明wujianming 阅读(1535) 评论(0) 推荐(0) 编辑

2020年12月7日

NVIDIA Turing Architecture架构设计（下）

摘要： NVIDIA Turing Architecture架构设计（下） GDDR6 内存子系统随着显示分辨率不断提高，着色器功能和渲染技术变得更加复杂，内存带宽和大小在 GPU 性能中扮演着更大的角色。为了保持最高的帧速率和计算速度， GPU 不仅需要更多的内存带宽，还需要一个大的内存池来提供持续的性阅读全文

posted @ 2020-12-07 09:47 吴建明wujianming 阅读(691) 评论(0) 推荐(0) 编辑

NVIDIA Turing Architecture架构设计（上）

摘要： NVIDIA Turing Architecture架构设计（上）在游戏市场持续增长和对更好的 3D 图形的永不满足的需求的推动下， NVIDIA ®已经将 GPU 发展成为许多计算密集型应用的世界领先的并行处理引擎。除了渲染高度逼真和身临其境的 3D 游戏外， NVIDIA GPUs 还可以加速阅读全文

posted @ 2020-12-07 09:10 吴建明wujianming 阅读(882) 评论(0) 推荐(0) 编辑

MLPerf Inference 0.7应用

摘要： MLPerf Inference 0.7应用三个趋势继续推动着人工智能推理市场的训练和推理：不断增长的数据集，日益复杂和多样化的网络，以及实时人工智能服务。 MLPerf 推断 0 . 7 是行业标准 AI 基准测试的最新版本，它解决了这三个趋势，为开发人员和组织提供了有用的数据，以便为数据中心和阅读全文

posted @ 2020-12-07 08:37 吴建明wujianming 阅读(398) 评论(0) 推荐(0) 编辑

机器人应用程序设计

摘要：机器人应用程序设计 Robot 操作系统（ ROS ）提供了许多软件库和工具来帮助构建机器人应用程序，包括框架、算法、传感器和机器人平台。它在世界各地的机器人专家和研究人员中非常受欢迎。来自生态系统的软件包和库的不断涌入使得机器人项目的启动变得很容易。图 1. 使用 ROS 桥接器连接 ISAAC 阅读全文

posted @ 2020-12-07 08:21 吴建明wujianming 阅读(247) 评论(0) 推荐(0) 编辑

吴建明

公告