PyTorch 2.0 推理速度测试：与 TensorRT 、ONNX Runtime 进行对比

PyTorch 2.0 于 2022 年 12 月上旬在 NeurIPS 2022 上发布，它新增的 torch.compile 组件引起了广泛关注，因为该组件声称比 PyTorch 的先前版本带来更大的计算速度提升。

这对我们来说是一个好消息，训练时间改进的结果令人印象深刻。PyTorch 团队在发布新闻稿和 PyTorch GitHub 上没有提到的是 PyTorch 2.0 推理性能。所以我们来对推理的速度做一个简单的研究，这样可以了解 PyTorch 2.0 如何与其他推理加速器（如 Nvidia TensorRT 和 ONNX Runtime）是否还有差距。

我们使用 Nebuly 的开源库 Speedster 运行了一些推理测试，对于这个我们这个测试，Speedster 允许我们运行 TensorRT、ONNX Runtime，并将它们与 16 位和 8 位动态和静态量化相结合（仅用 2 行代码）。在测试期间，我们还使用 Speedster 收集有关顶级策略的性能信息，以减少推理延迟。

https://avoid.overfit.cn/post/0db857b606044b1db30210e32ca071af

posted @ 2023-01-01 11:32 deephub 阅读(219) 评论(0) 编辑收藏举报

刷新页面返回顶部

deephub

overfit深度学习

PyTorch 2.0 推理速度测试：与 TensorRT 、ONNX Runtime 进行对比

公告