[Triton课程笔记] 1.1.1 框架介绍

视频链接：https://www.bilibili.com/video/BV1KS4y1v7zd/?spm_id_from=333.788&vd_source=c2a322357481107ab7f418b1ae9ce618

一、推理框架介绍

triton和推理框架不能画上等号，推理框架一般包括客户端端和服务端，triton是服务端部分。
使用triton的场景，一般使用k8s来管理triton应用，解决负载均衡，动态扩容等问题。
模型仓库，用来管理模型文件。
metrics service：监控整个推理服务，驾驶舱。
推理服务一般开启多个部署，用以分担推理请求压力。triton实际上就是绿色部分。
triton支持多种深度学习框架导出的模型，Tensorrt只是triton里的一个推理库而已。

二、推理框架组件介绍

进一步介绍了推理框架中的组件。

k8s——集群。
Triton——单模式推理服务（Pod），单卡/多卡
Tensorrt——模型加速库。

三、Triton基本功能

多框架支持；
CPU、GPU，多GPU异构支持；
并行执行能力，CPU级别优化；
支持HTTP/REST，gRPC APIS；
监控：通过延迟和运行状况指标与编排系统和自动缩放进程集成；
模型管理，加载、卸载、更新；
开源，NGC docker仓库支持，每月发布；

其他：Scheduler主要是指对推理请求队列进行调度的过程。

posted @ 2024-06-26 10:59 大师兄啊哈阅读(51) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部