摘要: TVM 优化 ARM GPU 上的移动深度学习 随着深度学习的巨大成功,将深度神经网络部署到移动设备的需求正在迅速增长。与桌面平台上所做的类似,在移动设备中使用 GPU 既有利于推理速度,也有利于能源效率。但是,大多数现有的深度学习框架并不很好地支持移动 GPU。难点在于移动 GPU 架构和桌面 G 阅读全文
posted @ 2021-05-08 14:24 吴建明wujianming 阅读(966) 评论(0) 推荐(0) 编辑
摘要: 通过 DLPack 构建跨框架深度学习编译器 深度学习框架,如Tensorflow, PyTorch, and ApacheMxNet,快速原型化和部署深度学习模型提供了强大的工具箱。不幸的是,易用性往往以碎片化为代价:孤立地使用每个框架是很容易的。纵向集成使开发简化为常用案例,但冒险走出困境可能比 阅读全文
posted @ 2021-05-08 13:26 吴建明wujianming 阅读(207) 评论(0) 推荐(0) 编辑
摘要: TVM 高效保护隐私 ML 这篇文章描述了Myelin,一个在值得信赖的硬件飞地中保护隐私的机器学习框架,以及TVM如何使Myelin快速。关键的想法是,TVM,不像其它流行的ML框架,将模型编译成轻量级,优化,免费依赖库,可以适应资源有限利用。 尝试创建保护隐私的ML模型!查看 TVM可用的rep 阅读全文
posted @ 2021-05-08 12:01 吴建明wujianming 阅读(234) 评论(0) 推荐(0) 编辑
摘要: TVM编译机器学习到 WASM 和 WebGPU TLDR TVM 深度学习编译器对 WASM 和 WebGPU 的支持。实验表明,TVM 的 WebGPU 后端在将模型部署到 Web 时可以接近原生 GPU 性能。 引论 计算是现代机器学习应用的支柱之一。引入 GPU 以加快深度学习工作量,大大提 阅读全文
posted @ 2021-05-08 11:34 吴建明wujianming 阅读(849) 评论(0) 推荐(0) 编辑
摘要: 用TVM在硬件平台上部署深度学习工作负载的端到端 IR 堆栈 深度学习已变得无处不在,不可或缺。这场革命的一部分是由可扩展的深度学习系统推动的,如滕索弗洛、MXNet、咖啡和皮托奇。大多数现有系统针对范围狭窄的服务器级 GPU 进行了优化,需要在其它平台,如移动电话、物联网设备和专用加速器(FPGA 阅读全文
posted @ 2021-05-08 10:17 吴建明wujianming 阅读(531) 评论(0) 推荐(0) 编辑
摘要: TVM优化Deep Learning GPU算子 高效的深度学习算子是深度学习系统的核心。通常,这些算子很难优化,需要HPC专家付出巨大的努力。 端到端张量IR / DSL堆栈TVM使这一过程变得更加容易。 如何在TVM的帮助下编写高性能GPU运算符内核。本文以深度卷积(即topi.nn.depth 阅读全文
posted @ 2021-05-08 06:15 吴建明wujianming 阅读(387) 评论(0) 推荐(0) 编辑