吴建明wujianming

2021年5月8日

摘要： TVM 高效保护隐私 ML 这篇文章描述了Myelin，一个在值得信赖的硬件飞地中保护隐私的机器学习框架，以及TVM如何使Myelin快速。关键的想法是，TVM，不像其它流行的ML框架，将模型编译成轻量级，优化，免费依赖库，可以适应资源有限利用。尝试创建保护隐私的ML模型！查看 TVM可用的rep 阅读全文

posted @ 2021-05-08 12:01 吴建明wujianming 阅读(234) 评论(0) 推荐(0) 编辑

TVM编译机器学习到 WASM 和 WebGPU

摘要： TVM编译机器学习到 WASM 和 WebGPU TLDR TVM 深度学习编译器对 WASM 和 WebGPU 的支持。实验表明，TVM 的 WebGPU 后端在将模型部署到 Web 时可以接近原生 GPU 性能。引论计算是现代机器学习应用的支柱之一。引入 GPU 以加快深度学习工作量，大大提阅读全文

posted @ 2021-05-08 11:34 吴建明wujianming 阅读(849) 评论(0) 推荐(0) 编辑

用TVM在硬件平台上部署深度学习工作负载的端到端 IR 堆栈

摘要：用TVM在硬件平台上部署深度学习工作负载的端到端 IR 堆栈深度学习已变得无处不在，不可或缺。这场革命的一部分是由可扩展的深度学习系统推动的，如滕索弗洛、MXNet、咖啡和皮托奇。大多数现有系统针对范围狭窄的服务器级 GPU 进行了优化，需要在其它平台，如移动电话、物联网设备和专用加速器（FPGA 阅读全文

posted @ 2021-05-08 10:17 吴建明wujianming 阅读(531) 评论(0) 推荐(0) 编辑

TVM优化Deep Learning GPU算子

摘要： TVM优化Deep Learning GPU算子高效的深度学习算子是深度学习系统的核心。通常，这些算子很难优化，需要HPC专家付出巨大的努力。端到端张量IR / DSL堆栈TVM使这一过程变得更加容易。如何在TVM的帮助下编写高性能GPU运算符内核。本文以深度卷积（即topi.nn.depth 阅读全文

posted @ 2021-05-08 06:15 吴建明wujianming 阅读(387) 评论(0) 推荐(0) 编辑

2021年5月7日

国内外企业竞争AR HUD

摘要：国内外企业竞争AR HUD 华为X红旗合作车型首曝：搭载华为AR HUD、智能座舱方案 2021年4月18日，上海国际车展正式开放，华为也成了此次车展上的重要亮点之一。据相关报道显示，华为除了联手北汽刚刚推出了极狐阿尔法S之外，还有一款联合红旗打造的新车在上海车展亮相，有消息称这辆车是基于红旗EH 阅读全文

posted @ 2021-05-07 05:42 吴建明wujianming 阅读(380) 评论(0) 推荐(0) 编辑

2021年5月6日

部署TVM Runtime

摘要：部署TVM Runtime本文主要介绍如何在开发板上部署TVM Runtime，在本地机器安装完整的TVM(包含了TVM Runtime以及编译功能)，并且使用一个简单的远程调用例子测试是否部署成功。本地机器使用的是Linux操作系统，开发板使用的是预装的Fedora系统。开发板与TVM的概述开阅读全文

posted @ 2021-05-06 05:34 吴建明wujianming 阅读(628) 评论(0) 推荐(1) 编辑

2021年5月5日

端到端TVM编译器（下）

摘要：端到端TVM编译器（下） 4.3 Tensorization DL工作负载具有很高的运算强度，通常可以分解为张量运算符，如矩阵乘法或一维卷积。这些自然分解导致了最近的添加张量计算原语。这些新的原语带来了机遇和挑战调度；为了提高性能，编译框架必须无缝集成。称之为张量化：类似于SIMD体系结构的矢量化阅读全文

posted @ 2021-05-05 09:32 吴建明wujianming 阅读(1007) 评论(0) 推荐(0) 编辑

2021年5月4日

端到端TVM编译器（上）

摘要：端到端TVM编译器（上）摘要将机器学习引入到各种各样的硬件设备中。AI框架依赖于特定于供应商的算子库，针对窄范围的服务器级gpu进行优化。将工作负载部署到新平台，例如手机、嵌入式设备和加速器（例如，FPGA、ASIC）–需要大量手动操作。TVM，一个开源图形级的编译器和算子级优化，提供可移植到不阅读全文

posted @ 2021-05-04 23:04 吴建明wujianming 阅读(988) 评论(0) 推荐(0) 编辑

2021年4月30日

光速对齐时间序列

摘要：光速对齐时间序列 “时间序列是无处不在且越来越流行的数据类型[…]”。几乎任何增量测量的信号，沿时间轴还是线性有序集，可以视为时间序列。示例包括心电图，温度或电压测量，音频，服务器日志，还有重量级数据，例如视频和时间分辨的MRI体积。对数量不断增加的时间序列数据进行有效而精确的处理，对于每位数据科阅读全文

posted @ 2021-04-30 12:13 吴建明wujianming 阅读(580) 评论(0) 推荐(0) 编辑

NVIDIA深度架构

摘要： NVIDIA深度架构本文介绍A100 GPU，NVIDIA Ampere架构GPU的重要新功能。现代云数据中心中运行的计算密集型应用程序的多样性推动了NVIDIA GPU加速的云计算的爆炸式增长。此类密集型应用程序包括AI深度学习（DL）训练和推理，数据分析，科学计算，基因组学，边缘视频分析和5 阅读全文

posted @ 2021-04-30 11:28 吴建明wujianming 阅读(2223) 评论(0) 推荐(0) 编辑

吴建明

公告