本文介绍如何使用服务网格ASM的动态子集路由能力,将请求直接精准路由到正确的运行时环境,以加速模型服务网格的推理过程。
背景信息
模型服务网格(Model Service Mesh)提供了一个可扩展的、高性能的基础架构,用于管理、部署和调度多个模型服务。
当您同时在模型服务网格中运行多个不同模型时,特定模型往往只会被加载到特定的运行时中,而Kubernetes Service会随机将推理请求发送到任意一个运行时,此推理请求可能要经过模型服务网格的多次路由才能发往模型所在的正确运行时。
动态子集路由可以识别模型服务网格中每个运行时工作负载中正在运行的模型,通过ASM网关识别推理请求对应的模型,将请求精准地路由到正确的运行时工作负载,从而优化模型服务网格的路由决策,加速对推理请求的响应过程。有关动态子集路由的详情,请参考动态子集路由。
前提条件
已创建ASM实例,且版本为1.21.6.47及以上。具体操作,请参见创建ASM实例。
已添加集群到ASM实例。具体操作,请参见添加集群到ASM实例。
已经开启了模型服务网格,并部署了sklearn-mnist模型。具体操作,请参见使用模型服务网格进行多模型推理服务。
步骤一:在模型服务网格中部署tf-mnist模型
由于动态子集路由的精准路由能力主要作用于多模型的场景下,因此本文额外部署tf-mnist模型(TensorFlow实现的mnist模型,由triton运行时提供运行环境)到模型服务网格中。
本文继续沿用使用模型服务网格进行多模型推理服务中创建的PVC my-models-pvc,将tf-minst模型(mnist目录中所有的内容都是模型内容)保存在该PVC中。
将tf-mnist模型存储在持久卷上。
在ACK集群对应的KubeConfig环境下,执行以下命令,将mnist-svm.joblib模型文件复制到pvc-access Pod的/mnt/models文件夹中。
kubectl -n modelmesh-serving cp mnist pvc-access:/mnt/models/
执行以下命令,确认Model已经加载成功。
kubectl -n modelmesh-serving exec -it pvc-access -- ls -alr /mnt/models/
预期输出:
-rw-r--r-- 1 502 staff 344817 Apr 23 08:17 mnist-svm.joblib drwxr-xr-x 3 root root 4096 Apr 23 08:23 mnist drwxr-xr-x 1 root root 4096 Apr 23 08:17 .. drwxrwxrwx 3 root root 4096 Apr 23 08:23 .
部署推理服务。
使用以下内容创建tf-mnist.yaml。
apiVersion: serving.kserve.io/v1beta1 kind: InferenceService metadata: name: tf-mnist namespace: modelmesh-serving annotations: serving.kserve.io/deploymentMode: ModelMesh spec: predictor: model: modelFormat: name: tensorflow storage: parameters: type: pvc name: my-models-pvc path: mnist
在ACK集群对应的KubeConfig环境下,执行以下命令,部署tf-mnist推理服务。
kubectl apply -f tf-mnist.yaml
等待片刻后(时间取决于镜像拉取速度),执行以下命令,查看tf-mnist推理服务是否部署成功。
kubectl get isvc -n modelmesh-serving
预期输出:
NAME URL READY sklearn-mnist grpc://modelmesh-serving.modelmesh-serving:8033 True tf-mnist grpc://modelmesh-serving.modelmesh-serving:8033 True
由预期输出可知,模型服务网格中已经部署了sklearn-mnist和tf-mnist两个不同框架的模型。
步骤二(可选):测试模型服务网格推理请求处理时延
参考fortio项目的安装说明,安装fortio压力测试工具。
使用fortio工具发送推理请求到tf-mnist模型。ASM网关IP地址的获取请参考ASM集成KServe实现云原生AI模型推理服务。
ASM_GW_IP="ASM网关IP地址" fortio load -jitter=False -H 'model: tf-mnist' -c 1 -qps 100 -t 60s -payload '{"inputs": [{ "name": "inputs", "shape": [1, 784], "datatype": "FP32", "contents": { "fp32_contents}}]}' -a ${ASM_GW_IP}:8008/v2/models/tf-mnist/infer
预期输出:
查看fortio可视化压力测试结果。
运行以下命令,打开fortio本地服务器。
fortio server
使用浏览器访问localhost:8080,单击界面中的
saved results
,在跳转后的界面选择步骤一中输出的json文件名称,查看压力测试的可视化结果。由上图可发现,发送到模型服务网格的部分推理请求有延迟增加的情况,此时请求经过了模型服务网格的重新路由,响应速度有所下降。
步骤三:对模型服务网格启用动态子集路由
模型服务网中运行的所有模型都通过modelmesh-serving命名空间下modelmesh-serving服务统一进行访问,本节演示通过配置modelmesh-serving服务的动态子集路由来实现针对不同模型运行时的精确路由。
使用以下内容,为模型服务网格的modelmesh-serving服务配置动态分组。具体操作请参见管理目标规则。
apiVersion: networking.istio.io/v1beta1 kind: DestinationRule metadata: name: modelmesh-serving namespace: modelmesh-serving spec: host: modelmesh-serving trafficPolicy: loadBalancer: dynamicSubset: subsetSelectors: - fallbackPolicy: ANY_ENDPOINT keys: - modelmesh.asm.alibabacloud.com
上述的目标规则基于
modelmesh.asm.alibabacloud.com
标签对模型运行时进行动态分组,模型服务网格将根据运行时中实际加载的模型动态更新运行时的标签。使用以下内容,变更虚拟服务
vs-modelmesh-serving-service
的内容。具体操作,请参见管理虚拟服务。apiVersion: networking.istio.io/v1beta1 kind: VirtualService metadata: name: vs-modelmesh-serving-service namespace: modelmesh-serving spec: gateways: - grpc-gateway hosts: - '*' http: - headerToDynamicSubsetKey: - header: model key: modelmesh.asm.alibabacloud.com match: - port: 8008 name: default route: - destination: host: modelmesh-serving port: number: 8033
上述的虚拟服务基于动态子集路由的要求,添加了
headerToDynamicSubsetKey
字段,此后ASM网关将把推理请求中的model
请求转化成请求元数据,匹配模型服务网格的动态子集。
步骤四(可选):测试优化后的模型服务网格推理请求处理时延
参见步骤二,重新使用fortio运行测试,并查看可视化结果。
由预期结果可知,经过ASM动态子集路由优化后,所有的推理请求访问时延都落在较小的区间,推理请求的时延表现得到很大程度的优化。