[Triton课程笔记] 1.2.1 编程实战-准备模型仓库

一、Triton总体架构

服务端：模型仓库->backend->硬件

从模型仓库加载模型，根据模型的类型，选择特定的backend，将模型运行在特定的硬件上。

客户端：编程语言->query->服务端

客户端可以使用python或者C++等编程语言的库，通过HTTP、gRPC协议，或者直接使用C API进行调用。服务端收到请求后，会调度器会调度请求给模型进行处理，返回推理结果。

必须符合以下结构：

版本号目录：

配置文件：

为模型和服务定义一系列配置参数。

标签文件：

针对分类模型，标签自动转为标签文件中的标签名。

启动Triton服务：

启动Triton服务时，需要指定仓库目录。

启动成功的输出：

posted @ 2024-06-26 11:55 大师兄啊哈阅读(45) 评论(0) 编辑收藏举报

刷新页面返回顶部