bert 推理加速 使用tensorRt
之前对bert轻量化,显存占用减少一半。但是推理速度仍然没多大变化。因此 计划通过tensorRT完成模型的推理加速。
轻量化之前链接: https://www.cnblogs.com/dhName/p/12628828.html
1. 首先,了解一下tensorTR是干什么的,这篇文章写得很好。
https://www.cnblogs.com/qccz123456/p/11767858.html
https://arleyzhang.github.io/articles/7f4b25ce/
本人猜想,Nvidia官方提出tensorrt的目的是为了更好的融合深度学习框架和GPU.。tensorflow、pytorch等深度学习框架市场战场率太大,而GPU去靠近哪一个框架都是一种损失,因此他们挣了一个tensorRT,这个东西毕竟自己开发的,更能适合自己的GPU.在训练方面,仍使用tensorflow等深度学习框架,而推理阶段,只需要把模型build成tensorRT自己的类型,在GPu上申请一个空间,用于存放推理时候的占用,然后推理完后再递给GPU即可。
所以这个东西更像一个桥梁,使模型能更好的兼容GPU (毕竟tensorRT和Gpu都是人家的,兼容性肯定比谷歌的tensorflow对nvidia的gpu兼容好),在推理的时候加速。
1. https://github.com/NVIDIA/TensorRT
参照build流程,便可以完成我们的tensorRT的编译。环境踩坑环节不介绍。
2.
https://github.com/NVIDIA/TensorRT
参考官方文档,
https://github.com/NVIDIA/TensorRT/tree/master/demo/BERT 中便是对Bert的加速。
其中,
Quick Start Guide
章节,详细介绍了使用教程,3可以省略,替换为我们自己的bert模型。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
2019-08-20 数据算法 --hadoop/spark数据处理技巧 --(9.基于内容的电影推荐 10. 使用马尔科夫模型的智能邮件营销)