Trochserve(三)—— 客制化服务
6. CUSTOM SERVICE客制化服务
6.1. 文档内容
-
Custom handlers 客制化handlers
-
Creating model archive with entry point 创建带入口点的模型存档
-
Handling model execution on GPU 在gpu上运行模型
-
Installing model specific python dependencies 安装模型特定的python依赖
6.2. 客制化handlers
在使用模型存档器(torch-model-archiver)时,通过编写与模型一起打包的 Python 脚本Handlers来自定义 TorchServe 的行为。TorchServe 在运行时执行此代码。
自定义脚本功能:
-
初始化模型实例
-
在被送到模型进行推理前,对输入数据进行预处理
-
自定义模型如何进行推理(inference)或解释(explanations)
-
在模型返回一个响应前,对返回结果进行后处理
以下适用于所有类型的自定义Handlers
-
data - 来自传入请求的输入数据
-
context - TorchServe的上下文 context. 可以使用自定义信息如 model_name, model_dir, manifest, batch_size, gpu 等.
6.2.1. 从基类BaseHandler开始
BaseHandler 实现了需要的大部分功能. 可以从它派生一个类, 如默认handlers或者examples实例。大多数情况下,只需要重写 preprocess
or postprocess 两个方法
.
6.2.2. 自定义带有模块级入口点( module
level entry point)的handler
自定义handler文件必须定义一个模块级函数作为执行的入口点。函数名字可随意,但必须接受以下参数,并返回预测结果。
入口点函数的签名:
# Create model object model = None def entry_point_function_name(data, context): """ 为创建模型对象或者处理推理请求,处理数据和上下文。下面的示例描述了jit模式的模型对象如何初始化;同样你可以对eager模式模型使用这种方式。 :param data: 预测的输入数据 :param context: 包含模型运行的系统属性的上下文 :return: 预测结果 """ global model if not data: manifest = context.manifest properties = context.system_properties model_dir = properties.get("model_dir") device = torch.device("cuda:" + str(properties.get("gpu_id")) if torch.cuda.is_available() else "cpu") # Read model serialize/pt file serialized_file = manifest['model']['serializedFile'] model_pt_path = os.path.join(model_dir, serialized_file) if not os.path.isfile(model_pt_path): raise RuntimeError("Missing the model.pt file") model = torch.jit.load(model_pt_path) else: #infer and return result return model(data)
这个入口点涉及两种情况:
-
TorchServe 被要求扩展模型,增加后端进程(CPUs or GPUs)的数量 (基于
PUT /models/{model_name}
的请求 或者 初始化进程数时POST /models 请求
或者 TorchServe 启动时使用--models
选项 (torchserve --start --models {model_name=model.mar}
), 如., 加载模型时) -
TorchServe 收到
POST /predictions/{model_name}
请求时.
(1) 用于调整模型进程数规模 (2) 用于模型执行推理的标准方法
(1) 也称模型加载. 通常,希望模型初始化的代码在模型加载时执行。可以在 TorchServe Management API and TorchServe Inference API中找到有关这些和其它torchserve API的更多信息。
6.2.3. 自定义类级入口点( class
level entry point)的handler
可以创建任何名字的handler类,但是它必须包含 initialize
和 handle
方法.
注意: 一般在同个python文件或者模块只包含一个handler类,但是如果计划包含多个类,那么必须确保handler类是列表中的第一个。
入口点类和函数的实例:
class ModelHandler(object): """ 自定义模型handler实现. """ def __init__(self): self._context = None self.initialized = False self.model = None self.device = None def initialize(self, context): """ 通过torchserve调用来加载模型 :param context: context 包含模型服务器系统属性 :return: """ # 加载模型 self.manifest = context.manifest # 属性清单 properties = context.system_properties model_dir = properties.get("model_dir") self.device = torch.device("cuda:" + str(properties.get("gpu_id")) if torch.cuda.is_available() else "cpu") # 读取模型 serialize/pt 文件 serialized_file = self.manifest['model']['serializedFile'] model_pt_path = os.path.join(model_dir, serialized_file) if not os.path.isfile(model_pt_path): raise RuntimeError("Missing the model.pt file") self.model = torch.jit.load(model_pt_path) self.initialized = True def handle(self, data, context): """ 由TrochServe所调用的预测请求. 对数据进行预处理,使用模型进行预测,并对预测输出进行后处理 :param data: 要预测的输入数据 :param context: 包含模型服务器系统属性的初始化上下文. :return: 预测输出结果 """ pred_out = self.model.forward(data) return pred_out
6.2.4. 高级自定义handlers
6.2.4.1. 返回自定义错误码
用户基于模块级别入口点的自定义handler,返回自定义错误码。
from ts.utils.util import PredictionException def handle(data, context): # 一些意外错误,返回错误码513。 raise PredictionException("Some Prediction Error", 513)
通过具有class类级别入口点的自定义处理程序将自定义错误码返回给用户。
from ts.torch_handler.base_handler import BaseHandler from ts.utils.util import PredictionException class ModelHandler(BaseHandler): """ 自定义模型handler实现. """ def handle(self, data, context): # 一些意外错误,返回错误码513 raise PredictionException("Some Prediction Error", 513)
6.2.4.2. 从头开始为Prediction和Explanations请求编写自定义Handler
通常应该从BaseHandler派生,并且只重写需要改变的方法! 如示例中看到的,大多数时间只需要重写 preprocess
或者 postprocess方法。
尽管如此,还是可以从头编写类. 如下例子. 基本上遵从了Init-Pre-Infer-Post模式去可维护的自定义handler。
# 自定义handler文件 # model_handler.py """ ModelHandler定义一个自定义handler. """ from ts.torch_handler.base_handler import BaseHandler class ModelHandler(BaseHandler): """ 一个自定义模型handler实现. """ def __init__(self): self._context = None self.initialized = False self.explain = False self.target = 0 def initialize(self, context): """ 初始化模型,此接口将在模型加载期间被调用。 :param context: 初始化上下文文本,包含模型服务器系统属性. :return: """ self._context = context self.initialized = True # 加载模型,详情请参考上面的'custom handler class' def preprocess(self, data): """ 转换原始输入为模型输入数据 :param batch: 原始请求的清单,应该匹配batch size. :return: 预处理后的模型输入数据列表 """ # 获取输入数据,并准备开始推理. preprocessed_data = data[0].get("data") if preprocessed_data is None: preprocessed_data = data[0].get("body") return preprocessed_data def inference(self, model_input): """ 内部推理方法 :param model_input: 转换后的模型输入数据 :return: 在NDArray的推理输出列表 """ # 在这里做一些推理调用,并返回结果 model_output = self.model.forward(model_input) return model_output def postprocess(self, inference_output): """ 返回推理结果 :param inference_output: 推理输出的列表 :return: 预测结果的列表 """ # 将网络得到的输出和后处理成需要的格式 postprocess_output = inference_output return postprocess_output def handle(self, data, context): """ 由TrochServe所调用的预测请求. 实现数据预处理,使用模型预测,预测结果后处理。 :param data: 预测的输出数据 :param context: 初始化包含模型服务器系统属性的上下文. :return: 预测输出结果 """ model_input = self.preprocess(data) model_output = self.inference(model_input) return self.postprocess(model_output)
有关详细信息,请参阅waveglow_handler。
6.2.4.3. 自定义Captum explanations的handler
Torchserve为Image Classification, Text Classification 和 BERT 模型返回captum 解释. 它通过以下请求实现: POST /explanations/{model_name}
解释explanations是作为basehandler的explain_handle方法的一部分. basehandler会调用explain_handle_method方法.
预处理数据(pre-processed data)和原始数据(raw data)参数被传递给explain_handle_method方法。
它调用返回 captum 属性的自定义处理程序的获取洞察功能。用户应该编写自己的 get_insights 功能来获得解释。
为了为自定义处理程序提供服务,captum 算法应在处理程序的初始化函数中初始化
用户可以覆盖自定义处理程序中的 explain_handle 函数。用户应为自定义处理程序定义其 get_insights 方法以获取 Captum 属性。
上面的 ModelHandler 类应该具有以下具有 captum 功能的方法。
def initialize(self, context): """ Load the model and its artifacts """ ..... self.lig = LayerIntegratedGradients( captum_sequence_forward, self.model.bert.embeddings ) def handle(self, data, context): """ Invoke by TorchServe for prediction/explanation request. Do pre-processing of data, prediction using model and postprocessing of prediction/explanations output :param data: Input data for prediction/explanation :param context: Initial context contains model server system properties. :return: prediction/ explanations output """ model_input = self.preprocess(data) if not self._is_explain(): model_output = self.inference(model_input) model_output = self.postprocess(model_output) else : model_output = self.explain_handle(model_input, data) return model_output # Present in the base_handler, so override only when neccessary def explain_handle(self, data_preprocess, raw_data): """Captum explanations handler Args: data_preprocess (Torch Tensor): Preprocessed data to be used for captum raw_data (list): The unprocessed data to get target from the request Returns: dict : A dictionary response with the explanations response. """ output_explain = None inputs = None target = 0 logger.info("Calculating Explanations") row = raw_data[0] if isinstance(row, dict): logger.info("Getting data and target") inputs = row.get("data") or row.get("body") target = row.get("target") if not target: target = 0 output_explain = self.get_insights(data_preprocess, inputs, target) return output_explain def get_insights(self,**kwargs): """ Functionality to get the explanations. Called from the explain_handle method """ pass
6.2.4.4. 扩展默认handlers
TorchServe默认有以下四种handlers.
如果需要,可以扩展上述handler以创建自定义handler。此外,您可以扩展抽象base_handler。
要在 python 脚本中导入默认handler,请使用以下 import 语句。
from ts.torch_handler.<default_handler_name> import <DefaultHandlerClass>
以下是扩展默认 image_classifier 处理程序的自定义handler示例。
from ts.torch_handler.image_classifier import ImageClassifier class CustomImageClassifier(ImageClassifier): def preprocess(self, data): """ 为自定义预处理程序重写本方法 :param data: raw data to be transformed 将要被转换的原始数据 :return: 用作模型输入的预处理数据 """ # 这里编写自定义预处理代码 return data
更多相关示例:
6.3. 创建带入口点的模型存档MAR
TorchServe 从一个manifest文件识别自定义服务的入口点。当你要创建模型存档文件MAR时,可以通过--handler选项指定入口点的位置。
模型存档工具 model-archiver 可以创建 TorchServe 支持的模型存档文件.
torch-model-archiver --model-name <model-name> --version <model_version_number> \
--handler model_handler[:<entry_point_function_name>] [--model-file <path_to_model_architecture_file>] \
--serialized-file <path_to_state_dict_file> [--extra-files <comma_seperarted_additional_files>] [--export-path <output-dir> \
--model-path <model_dir>] [--runtime python3]
注意:
-
[] 中的选项是可选的。
-
如果在handler module 或者 handler是python 类 被命名为
handle
,则可以跳过entry_point_function_name
handle。
这会在python3 运行时在<output-dir>
目录创建<model-name>.mar
文件。--runtime
参数允许在运行时使用特定的 python 版本。默认情况下,它使用系统的默认的python 发行版本。
例如:
torch-model-archiver --model-name waveglow_synthesizer --version 1.0 --model-file waveglow_model.py \
--serialized-file nvidia_waveglowpyt_fp32_20190306.pth \
--handler waveglow_handler.py --extra-files tacotron.zip,nvidia_tacotron2pyt_fp32_20190306.pth
6.4. 在多个GPUs上运行模型
TorchServe 可以调整vCPU 或 GPU 上后端进程。在多个 GPU 的情况下,TorchServe 以循环方式选择 gpu 设备,并将此设备 ID 传递给在上下文对象中的模型处理程序。用户使用 GPU ID 去创建 pytorch 设备对象,以确保不会在同一个 GPU 中创建所有工作进程。以下代码片段可在模型处理程序中用于创建 PyTorch 设备对象:
import torch class ModelHandler(object): """ 一个基本的model handler实现 """ def __init__(self): self.device = None def initialize(self, context): properties = context.system_properties self.device = torch.device("cuda:" + str(properties.get("gpu_id")) if torch.cuda.is_available() else "cpu")
6.5. 安装模型特定的python依赖
自定义 models/handlers 可能依赖于不同的python包, 这些包可能默认情况下不作为TrochServe安装的一部分。
以下步骤允许用户提供要安装的自定义 python 包列表以TorchServe
进行无缝模型服务。