TensorRT优化方案图例

TensorRT优化方案图例

 

 

 图 12. TensorRT 循环由循环边界层设置。数据流只能通过下方式离开循环环输出层. 唯一允许的后边缘是第二个输入递归层

 

 

 图 13. 一个 if 条件构造抽象模型 

 

 

 图 14. 使用控制条件执行 IIf条件输入层 放置

 

 

 图 15. 层执行和在 CPU 端启动的内核。

 

 

 图 16. 内核实际运行在 GPU 上,换句话说,显示了 CPU 端的层执行和内核启动与在 GPU 端的执行之间的相关性。

 

 

 图 17. 布局格式 CHW: 图像分为 高×宽矩阵,每个通道一个,矩阵按顺序存储;一个通道的所有值都是连续存储的。

 

 

 图 18. 布局格式  HWC: 图像存储为单个 高×宽矩阵,值实际上是 C 元组,每个通道都有一个值;一个点(像素)的所有值都是连续存储的。

 

 

 图 19. 一对通道值打包在一起 高×宽 矩阵。结果是一种格式,其中[C/2]高x宽 矩阵的值是两个连续通道的值对。 

 

 

 图 20. 在这个 NHWC8 格式,一个高×宽 矩阵包括所有通道的值。

 

 

 图 21. 正常情况下的性能指标 trtexec在 Nsight Systems (ShuffleNet, BS=16, best, TitanRTX@1200MHz) 下运行。

 

参考链接:

https://docs.nvidia.com/deeplearning/tensorrt/developer-guide/index.html

 

posted @   吴建明wujianming  阅读(147)  评论(0编辑  收藏  举报
编辑推荐:
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2020-12-14 算子扫描与递归核
2020-12-14 算子本质与数学函数
2020-12-14 TVM中的调度原语
2020-12-14 NVIDIA GPU的神经网络自动调度
2020-12-14 ARM-CPU卷积网络的自动调谐
2020-12-14 x86 cpu卷积网络的自动调谐
2020-12-14 NVIDIA GPU卷积网络的自动调谐
点击右上角即可分享
微信分享提示