基于Kubernetes部署AI推理服务概述

借助ACK云原生AI套件提供的Arena命令行工具和AI负载调度,您可以在Kubernetes集群中高效地部署训练好的模型为AI推理服务。阿里云容器服务ACK支持弹性伸缩、GPU共享调度和性能监控,降低运维成本。本文介绍使用ACK和云原生AI套件部署模型推理服务的相关信息。

重要

通过ack-arena使用的NVIDIA Triton Server、TensorFlow Serving均为第三方开源社区/商业公司提供的免费开源组件。您可以按需选用并安装相应的组件并配置服务器,以此部署模型推理服务,以及使用相关的模型测试、优化工具等。

但阿里云不承担第三方组件相关的稳定性、服务限制与安全合规等责任。您应及时关注对应第三方开源社区或商业公司的官网、代码托管平台的版本更新动态并仔细阅读及遵守相应的开源协议,自行承担因第三方组件导致的应用侧程序开发、维护、故障与安全等潜在风险。

云原生AI套件支持的AI推理服务类型及描述如下。

AI推理服务类型

描述

参考文档

GPU共享模型推理任务

当需要把多个模型推理任务部署到同一块GPU,通过共享GPU显存和算力资源,提高GPU利用率时,您可以使用Arena提交GPU共享模型推理任务。

提交GPU共享模型推理任务

TensorFlow模型推理服务

通过Arena部署TensorFlow-Serving推理服务。

部署TensorFlow模型推理服务

PyTorch模型推理服务

通过Triton或TorchServe方式部署PyTorch模型的推理服务。

提交GPU共享模型推理任务

容器化弹性推理

基于ECI或ECS运行弹性推理服务,满足弹性伸缩需求,降低成本。