将TVM集成到PyTorch

随着TVM不断展示出对深度学习执行效率的改进，很明显PyTorch将从直接利用编译器堆栈中受益。PyTorch的主要宗旨是提供无缝且强大的集成，而这不会妨碍用户。PyTorch现在具有基于TVM的官方后端torch_tvm。

用法很简单：

import torch_tvm

torch_tvm.enable()

就是这样！然后，PyTorch将尝试在其JIT编译过程中，将所有可能的算子转换为已知的Relay算子。

背景

与许多其它ML框架不同，PyTorch公开了一个执行的编程接口。这种编程风格避免了图元编程，而专注于以Python方式直接控制n维数组（张量）。该框架最初非常适合模型的试验和开发，但不适用于自动性能优化或部署。为了利用优化的编译器技术，PyTorch最近引入了一些较大的改进来解决此问题。

PyTorch 1.0引入了PyTorch IR，PyTorch专用的中间表示形式，用于类似于Relay的模型。可以通过模型跟踪，将PyTorch程序转换为IR，该跟踪记录模型或Python的子集TorchScript的执行。新的TVM后端将PyTorch的IR降低到了Relay，能够透明地提高PyTorch的性能，无需用户参与。

整合与结果

为了支持Relay，PyTorch JIT添加了两个功能：自定义转换过程和自定义子图解释器。

当torch_tvm启用时，可以转换到Relay PyTorch IR的子图Expr，旨意被标记为Relay 兼容。由于PyTorch IR并不总是包含形状信息，因此在调用之前，无法以有用的方式编译任何子图。

在用户调用期间，PyTorch JIT Runtime将确定输入形状信息，并使用新的Relay C ++构建系统，编译先前标记的子图。根据输入形状来缓存编译，以供后续运行。可以在README中找到更多详细信息。

torch_tvm建立了一个连续的基准测试系统，该系统正在监视ResNet18在CPU上的性能。对于各种ResNet型号，TVM的性能都是默认PyTorch JIT后端的两倍以上。下图详细描述了在AWS c5n.4xlarge实例上，使用16个线程实现的每秒迭代次数（越大越好）：

这些结果令人鼓舞，该项目将继续致力于在更多模型上提高CPU推理速度。

未来的工作

现在，PyTorch JIT进行了大量工作来查找其IR的纯功能子集，馈送到Relay。避免了将采样和控制流信息映射到Relay，这不是必需的。将更多的PyTorch IR映射到Relay，可能会取得性能上的胜利，这是该项目的目标。PyTorch IR在开发过程中正在迅速变化，因此必须谨慎进行。

将做更多的工作来确保PyTorch和TVM代码之间的切换是有效的。这包括统一线程模型，分配器以及减少与将输入复制到TVM相关的开销。

help文件

如果已经编写了PyTorch模型，最简单的入门方法就是使用torch.jit.trace方法

import torch_tvm

from your_model import model, inputs

torch_tvm.enable(opt_level=3)

iters = 100

warmup = 10

# Ensure your model is in eval mode and also turn off gradients.

with torch.no_grad():

  # Use tuned parameters for better performance.

  with autotvm.apply_history_best("test/autotvm_tuning.log"):

    # This is where all the compilation happens.

    trace_tvm = torch.jit.trace(model, inputs)

    # Warmup

    for _ in range(warmup):

      _ = trace_tvm(*inputs)

    # Benchmark

    start = time.time()

    for _ in range(iters):

      _ = trace_tvm(*inputs)

    tvm_time = time.time() - start

    print("Took {}s to run {} iters".format(tvm_time, iters))

注意，用于AVX2 LLVM编译的调整参数位于存储库test/文件夹中。

如果直接使用Relay，可以通过（隐式）跟踪或TorchScript直接，从PyTorch函数中提取表达式：

def add(a, b, c):

    return a + b + c

# via tracing

relay_graph = torch_tvm.to_relay(add, inputs)

@torch.jit.script

def mul(a, b, c):

    return a * b * c

# via script

relay_graph = torch_tvm.to_relay(mul, inputs)

posted @ 2021-05-26 05:33 吴建明wujianming 阅读(237) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 全程不用写代码，我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了，比商业数据库还牛
· .NET10 - 预览版1新功能体验（一）

历史上的今天：
2020-05-26 SLAM的通用框架：GSLAM
2020-05-26 Docker_Swarm集群系统
2020-05-26 多传感器融合（三）
2020-05-26 多传感器融合（二）
2020-05-26 多传感器融合（一）

公告

昵称：吴建明wujianming
园龄： 7年5个月
粉丝： 532
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

吴建明

将TVM集成到PyTorch

整合与结果

未来的工作

help文件

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论