TensorRT学习

tensorrt加速推理整到一半还没整明白。因为另一个项目紧急，写了个简单的进展汇报给同事，由同事接着做下去。等以后有空了完全弄明白tensorrt，再回来修改这篇文章。

TensorRT当前进展

（本文前4节为已做工作总结，可直接跳过，看“5 当前进展”，并开展下一步工作！）

1 TensorRT的基本功能

TensorRT是NVIDIA开发的一个可以在NVIDIA旗下的GPU上进行高性能推理的C++库，是一个高性能推理优化引擎。

其核心库是使用c++去加速NVIDIA生产的GPU，具有python API。它可以加速的框架模型有：tensorflow、Caffe、Pytorch、MXNet等。

它可以吸收在这些流行框架上受过训练的神经网络，优化神经网络计算，生成一个轻量级的运行时引擎，然后它将在这些GPU平台上最大限度地提高吞吐量、延迟和性能。

1.1 工作原理

主要的优化模型工作集中在：

1）分析图结构中没有用到的输出layer，对网络层进行合并。

2）融合卷积操作、bias和ReLU操作。

3）把有相似参数的操作和有相同输入源的tensor聚合。

4）通过直接将layer的输出对应到最终的destination，这样融合了级联层。

1.2 官方指导

https://docs.nvidia.com/deeplearning/sdk/tensorrt-developer-guide/。

2 需要的库

2.1 tensorflow、tensorrt

已安装

2.2 pycuda

已安装

2.3 uff、graphsurgeon

已安装

3 准备工作

3.1 pb文件

以keras训练出的yolov3_tiny.h5为例，在Nano中/Documents/1tensorrt_pb_uff文件夹下，运行first_step_freeze_model.py进行转换：

python3 first_step_freeze_model.py --model=“yolov3_tiny.h5” —output=“yolov3_tiny.pb”

（这个好像只能对yolo_tiny转.pb文件，yolo不行）

3.2 pb文件转uff文件

使用自带的convert_to_uff工具转uff文件：

python3 /usr/lib/python3.6/dist-packages/uff/bin/convert_to_uff.py --input-file yolov3_tiny.pb

4 tensorrt基本流程

4.1 导入模型

4.1.1创造builder和network。

IBuilder* builder=createInferBuilder(gLogger);

nvinfer1::INetworkDefinition* network=builder->createNetwork();

4.1.2创造parse

使用parse导入模型填充网络。

parser->parse(args);

4.1.3导入caffe和tensorflow、ONNX模型，可以参考官网的指导。

https://docs.nvidia.com/deeplearning/sdk/tensorrt-developer-guide/index.html#create_network_c

4.1.4创造engine

有了网络结构后可以创造engine了。builder有两个重要的属性，分别是batchsize和worksize。

2 使用builder object建立引擎。

1、builder->setMaxBatchSize(maxBatchSize);

2、builder->setMaxWorkspaceSize(1 << 20);

3、ICudaEngine* engine = builder->buildCudaEngine(*network);

释放空间：

engine->destroy();

network->destroy();

builder->destroy();

4.3序列化模型

序列化和反序列化是可以自由选择的，使用序列化模型的主要原因是使用读取模型定义网络再创造engine是很耗时的操作，序列化后可以避免每次都需要重新建立engine。

当engine建立了之后，可以将其序列化保存下来为以后使用。

注意：序列化的模型在不同的模型和tensorRT的版本之间是不能够相互使用的。

序列化：

IHostMemory *serializedModel=engine->serialize();

serializedModel->destroy();

反序列化：

IRuntime* runtime = createInferRuntime(glogger);

ICudaEngine* engine = runtime->deserializeCudaEngin(modelData,modelSize, nullptr)

4.3进行预测

1、IExecutionContext *context = engine->createExecutionContext();

2、int inputIndex = engine.getBindingIndex(INPUT_BLOB_NAME);

int outputIndex = engine.getBindingIndex(OUTPUT_BLOB_NAME);

3、void* buffers[2];

buffers[inputIndex] = inputbuffer;

buffers[outputIndex] = outputBuffer;

4、context.enqueue(batchSize, buffers, stream, nullptr);

5 当前进展

5.1 tensorRT_mnist_example-master代码分析

代码github地址为：https://github.com/junyu0704/tensorRT_mnist_example。运行前需要编译（此步已完成，不需要再做）。

以下为代码简介。

5.1.1 mnist.py

训练mnist，权重文件保存为mnist.pb。

5.1.2 mnist_pred.py

对mnist.py中训练出的mnist.pb，进行tensorrt优化推理，然后再进行预测。

5.2 mnist_pred.py代码分析

优化推理主要有三步：第一步，find_data查找数据，事实上就是一个参数解析函数；第二步，build_engine创建引擎；第三步，inference推理。

5.2.1 find_data查找数据

事实上就是一个参数解析函数，定义parser解析器。

5.2.2 build_engine创建引擎

创建推理引擎，对网络进行推理解析

with trt.Builder(TRT_LOGGER) as builder, builder.create_network() as network, trt.UffParser() as parser:

5.2.3 inference推理

推理共5行代码。

# 将数据移动到GPU

[cuda.memcpy_htod_async(inp.device, inp.host, stream) for inp in inputs]

# 执行inference.

context.execute_async(batch_size=batch_size,bindings=bindings, stream_handle=stream.handle)

# 将结果从 GPU写回到host端

[cuda.memcpy_dtoh_async(out.host, out.device, stream) for out in outputs]

# 同步stream

stream.synchronize()

# 返回host端的输出结果

return [out.host for out in outputs]

posted @ 2019-11-28 15:44 城北徐公fh 阅读(2221) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 25岁的心里话
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 零经验选手，Compose 一天开发一款小游戏！
· 通过 API 将Deepseek响应流式内容输出到前端
· 因为Apifox不支持离线，我果断选择了Apipost！

公告

昵称：城北徐公fh
园龄： 5年3个月
粉丝： 2
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

城北徐公fh

长城之上是千亿的星空，星空之上是不灭的守望

TensorRT学习

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜