[Triton课程笔记] 1.2.1 编程实战-准备模型仓库

课程链接:https://www.bilibili.com/video/BV1234y157Xh/?spm_id_from=333.788&vd_source=c2a322357481107ab7f418b1ae9ce618

一、Triton总体架构

服务端:模型仓库->backend->硬件

从模型仓库加载模型,根据模型的类型,选择特定的backend,将模型运行在特定的硬件上。

客户端:编程语言->query->服务端

客户端可以使用python或者C++等编程语言的库,通过HTTP、gRPC协议,或者直接使用C API进行调用。服务端收到请求后,会调度器会调度请求给模型进行处理,返回推理结果。

二、需要了解的基本内容

  • 模型仓库准备;
  • 模型配置;
  • Triton Server启动;
  • 配置组合模型;
  • 客户端发送Requests;

2.1 模型仓库准备

必须符合以下结构:

  • 一级目录:仓库名称,如model_repository。
  • 二级目录:具体模型名字,如densenet_onnx。
  • 三级目录:
  • 版本号目录:1,表示版本1,可以有多个版本。里面放模型文件,如model.onnx;
  • config.pbtxt:模型配置参数,规定模型运行时的行为;
  • label文件:(可选)将分类模型的输出,转为文件里指定的标签。

2.1.1 模型目录细节

版本号目录:

  • 需要包含模型文件,注意格式;
  • 使用模型版本需要和版本目录名保持一致。

配置文件:

为模型和服务定义一系列配置参数。

标签文件:

针对分类模型,标签自动转为标签文件中的标签名。

启动Triton服务:

启动Triton服务时,需要指定仓库目录。

启动成功的输出:

 

 

posted @ 2024-06-26 11:55  大师兄啊哈  阅读(9)  评论(0编辑  收藏  举报