TVM在ARM GPU上优化移动深度学习

随着深度学习的巨大成功，将深度神经网络部署到移动设备的需求正在迅速增长。与在台式机平台上所做的类似，在移动设备中使用GPU可以提高推理速度和能源效率。但是，大多数现有的深度学习框架都不能很好地支持移动GPU。困难在于移动GPU架构和台式机GPU架构之间的差异。这意味着在移动GPU上进行优化需要付出特殊的努力。繁琐的额外工作最终导致大多数深度学习框架中对移动GPU的支持不佳。

TVM通过引入统一的IR堆栈解决了部署不同硬件的困难，通过该IR堆栈可以轻松完成针对不同硬件的优化。本文展示了如何使用 TVM / NNVM为ARM Mali GPU生成有效的内核并进行端到端编译。在对Mali-T860 MP4的测试中，与Arm Compute Library相比，的方法在VGG-16上快1.4倍，在MobileNet上快2.2倍。图形级和算子级优化都有助于加快速度。

ImageNet上不同后端的推理速度图

MALI中级GPU

使用带有Mali-T860 MP4的Firefly-RK3399作为的测试环境，主要关注下面的Mali T8xx。

建筑学

图1是T860和T880上的Mali体系结构的概述。GPU最多可扩展到16个一致的着色器内核。在每个着色器内核内部，有2或3条算术管道，1条加载/存储管道和1条纹理管道（所谓的TriPipe）。每个算术流水线中的ALU具有四个128位向量单元和一个标量单元。

使用OpenCL进行GPU计算。映射到OpenCL模型时，每个着色器内核将执行一个或几个工作组。每个着色器内核最多支持384个并发执行的线程。OpenCL中的每个工作项通常都映射到Mali GPU上的单个线程。Mali GPU使用VLIW（超长指令字）架构。每个指令字包含多个操作。Mali GPU还使用SIMD，大多数算术指令可同时对多个数据元素进行操作

图1. Mali T860和T880

与NVIDIA GPU的不同

与为NVIDIA GPU编写代码相比，在为Mali GPU编写OpenCL代码时，需要注意一些差异。

Mali GPU使用统一的全局内存。在NVIDIA的GPU中，通常将数据复制到共享内存中，因为NVIDIA的GPU具有物理上独立的全局内存，共享内存和寄存器。在Mali，此副本不会提高性能，可以删除。此外，Mali GPU通常与CPU共享全局内存，无需在CPU和GPU之间进行复制。
Mali Midgrad GPU基于SIMD（单指令多数据），并且需要显式矢量化。在NVIDIA CUDA中，并行性是通过SIMT（单指令多线程）实现的，而SIMT不需要显式矢量化。注意，较新的Mali Bitfrost GPU基于四边形矢量化，不需要显式矢量化。
Mali GPU中的所有线程都有单独的程序计数器。这意味着warp size，因此分支分歧不是主要问题。

优化：以卷积为例

卷积层是大多数深度神经网络的内核，占用大部分计算时间。以卷积层为例来说明如何在TVM中应用诸如打包，平铺，展开和矢量化之类的常见优化技术。

Im2Col与GEMM

卷积层的一种著名算法是im2col，将小3D输入多维数据集转换为矩阵的列并执行GEMM。方法的优点是易于利用高度优化的BLAS库。内存冗余（3x3内核为9x内存）非常糟糕。

空间批处理

相反，采用一种方法来计算卷积，并逐步应用优化技术。VGG-16中的卷积层用作调整案例，其配置在下面列出。假设批处理大小为1以便进行推断。

作为基准，还在Arm Compute库中列出了该层的性能。

声明计算：平铺和打包

平铺和打包是旨在更好地访问内存的两种方法。平铺将整个计算分成小块，以实现更好的数据重用。打包根据平铺对输入矩阵进行重新布局，以便可以顺序访问内存，从而降低了缓存未命中率。

对输入图像的宽度尺寸和滤镜矩阵的CO尺寸进行平铺。通过tvm.compute来描述。

# set tiling factor

# get input shape

# calc output shape

# data shape after packing

# kernel shape after packing

# define packing

# define convolution

# unpack to correct layout

通过以下方法检查定义的IR

我在这里选择卷积部分。

produce conv {

  for (co, 0, 64) {

    for (h, 0, 56) {

      for (w, 0, 14) {

        for (vw.init, 0, 4) {

          for (vc.init, 0, 4) {

            conv[((((((((co*56) + h)*14) + w)*4) + vw.init)*4) + vc.init)] = 0.000000f

        for (ci, 0, 256) {

          for (kh, 0, 3) {

            for (kw, 0, 3) {

              for (vw, 0, 4) {

                for (vc, 0, 4) {

                  conv[((((((((co*56) + h)*14) + w)*4) + vw)*4) + vc)] = (conv[((((((((co*56) + h)*14) + w)*4) + vw)*4) + vc)] + (data_vec[(((((((((h*14) + w)*256) + ci)*3) + kh)*6) + kw) + vw)]*kernel_vec[((((((((co*256) + ci)*3) + kh)*3) + kw)*4) + vc)]))

内核1：绑定线程

在TVM中，首先声明计算，然后调度。这种机制使算法和实现细节脱钩。（这个想法来自Halide）。

以下调度仅将轴绑定到GPU线程，代码可以在Mali GPU上运行。

# helper function for binding thread

# set tunable parameter

# schedule data packing

# schedule kernel packing

# schedule conv

有了这个时间表，的代码现在可以运行了，但是性能却很糟糕。

内核2：展开unrolling

循环展开可以减少循环控制的指令，减少分支惩罚并隐藏读取内存中的延迟。TVM通过调用以下命令轻松完成此操作s.unroll(axis)

# set tunable parameter

# schedule data packing

"""!! ADD UNROLL HERE !!"""

s[data_vec].unroll(vw)

# schedule kernel packing

"""!! ADD UNROLL HERE !!"""

s[kernel_vec].unroll(kh)

s[kernel_vec].unroll(kw)

s[kernel_vec].unroll(vc)

# schedule conv

"""!! ADD UNROLL HERE !!"""

s[conv].unroll(kh)

s[conv].unroll(kw)

s[conv].unroll(vw)

s[conv].unroll(vc)

内核3：矢量化

为了在Mali GPU上实现最佳性能，需要明确地进行矢量化。

# set tunable parameter

# schedule data packing

# unroll

s[data_vec].unroll(vw)

# schedule kernel packing

# unroll

s[kernel_vec].unroll(kh)

s[kernel_vec].unroll(kw)

"""!! VECTORIZE HERE !!"""

s[kernel_vec].vectorize(vc)

# schedule conv

# unroll

s[conv].unroll(kh)

s[conv].unroll(kw)

s[conv].unroll(vw)

"""!! VECTORIZE HERE !!"""

s[conv].vectorize(vc)

如何设置可调参数

至于上面的可调参数，可以计算一些。对于矢量化维VC，应该填充128位寄存器，因此对于float32可以将其设置为128/32 = 4，对于float16可以将其设置为128/16 = 8。

由于运行时间复杂，常常无法确定最佳值。在TVM中使用网格搜索。在TVM的高级IR中编写python代码，不是直接编写OpenCL代码，可以非常有效地完成。

生成的OpenCL代码

可以通过以下方式查看生成的OpenCL代码：

print(func.imported_modules[0].get_source())

OpenCL代码太长，无法粘贴到此处，由于展开太重而难以阅读。

端到端基准测试

比较一些流行的深度神经网络上不同后端之间的综合性能。测试环境是

Firefly-RK3399 4G

CPU: dual-core Cortex-A72 + quad-core Cortex-A53

GPU: Mali-T860MP4

Arm Compute Library : v17.12

MXNet: v1.0.1

Openblas: v0.2.18

使用NNVM和TVM进行端到端编译。

性能Performance

图2. ImageNet上不同后端的推理速度

如图2所示，在ImageNet上测试推理速度。在Firefly-RK3399上，Mali GPU的速度可以比6核big.LITTLE CPU快2倍至4倍。端到端管道比Arm Compute库快1.4倍至2.2倍。在Arm Compute Library中尝试了GEMM和卷积层的直接方法，在这些测试案例中，GEMM方法总是比直接方法快，因此仅绘制GEMM方法的结果。

图2中缺少一些结果，例如Arm Compute Library上的resnet18，因为Arm Compute Library的图形运行时当前不支持跳过连接，并且深度卷积的霓虹灯实现较差。这也反映了NNVM软件堆栈的优势。

半精度性能

深度神经网络的精度不是很重要，特别是对于移动设备的推断而言。使用低精度算术可以使推理更快。还在Mali GPU上测试了半精度浮点数。

从理论上讲，FP16既可以使峰值计算加倍，又可以使内存消耗减半，从而使速度加倍。需要良好的输入形状，以实现更长的矢量化和微调一些参数。

在移动设备上的进一步工作

还有一些改进的空间，主要是在图形级别，例如模型压缩和权重布局。NNVM的进一步改进将尝试解决这些问题。

posted @ 2021-03-07 08:25 吴建明wujianming 阅读(483) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

公告

昵称：吴建明wujianming
园龄： 7年5个月
粉丝： 532
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

吴建明

TVM在ARM GPU上优化移动深度学习

TVM在ARM GPU上优化移动深度学习

MALI中级GPU

建筑学

与NVIDIA GPU的不同

优化：以卷积为例

Im2Col与GEMM

空间批处理

声明计算：平铺和打包

内核1：绑定线程

内核2：展开unrolling

内核3：矢量化

如何设置可调参数

生成的OpenCL代码

端到端基准测试

性能Performance

半精度性能

在移动设备上的进一步工作

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论