kserve 1

kserve是为了解决训练过后的模型，如何上线服务的问题。其实，各大深度学习平台也注意到训练到上线服务这个gap，所以tensorflow、pytorch对应出了 TFServing、torchserve， nvidia出了triton。这些推理平台满足了基本的推理服务上线要求，而 kserve依托于knative，为推理服务赋予更多特性。knative支持的弹性扩缩容、缩容至零、蓝绿发布、回滚、多版本控制、流量控制，以及k8s对容器的监控、重启、资源调度、监控等特性，kserve都具有。

kserve支持现有的model serving runtime，即TFserving、torchserve、triton都可以作为kserve的runtime。此外，kserve还实现了其他的runtime，包括pmml、paddlepaddle、LigthGBM、XGBoost、SKLearn等，用户还可以使用kserve包装好的类，方便地自定义runtime。

kserve/kfserving 实现方式是k8s的一个CRD资源，即InfereceService，并且，部署服务的方式非常简单：

apiVersion: "serving.kserve.io/v1beta1"
kind: "InferenceService"
metadata:
  name: "torchscript-cifar"
spec:
  predictor:
    triton:
      storageUri: "gs://kfserving-examples/models/torchscript"
      runtimeVersion: 21.08-py3

storageUri即为存储模型的地址，kserve支持的存储类型为Azure、PVC、本地存储路径、S3、网络地址、谷歌云存储gcs，这样就创建了一个推理服务。

推理接口V1和V2版本分别为：

PREDICTOR_URL_FORMAT = "http://{0}/v1/models/{1}:predict"
EXPLAINER_URL_FORMAT = "http://{0}/v1/models/{1}:explain"
PREDICTOR_V2_URL_FORMAT = "http://{0}/v2/models/{1}/infer"
EXPLAINER_V2_URL_FORMAT = "http://{0}/v2/models/{1}/explain"

参考：

https://kserve.github.io/website/modelserving/v1beta1/serving_runtime/

posted on 2021-12-09 16:24 MissSimple 阅读(755) 评论(0) 编辑收藏举报

刷新页面返回顶部

kserve 1

导航

公告