基于Kubernetes部署AI推理服务概述_容器服务 Kubernetes 版 ACK(ACK)-阿里云帮助中心

借助ACK云原生AI套件提供的Arena命令行工具和AI负载调度，您可以在Kubernetes集群中高效地部署训练好的模型为AI推理服务。阿里云容器服务ACK支持弹性伸缩、GPU共享调度和性能监控，降低运维成本。本文介绍使用ACK和云原生AI套件部署模型推理服务的相关信息。

重要

通过ack-arena使用的NVIDIA Triton Server、TensorFlow Serving均为第三方开源社区/商业公司提供的免费开源组件。您可以按需选用并安装相应的组件并配置服务器，以此部署模型推理服务，以及使用相关的模型测试、优化工具等。

但阿里云不承担第三方组件相关的稳定性、服务限制与安全合规等责任。您应及时关注对应第三方开源社区或商业公司的官网、代码托管平台的版本更新动态并仔细阅读及遵守相应的开源协议，自行承担因第三方组件导致的应用侧程序开发、维护、故障与安全等潜在风险。

云原生AI套件支持的AI推理服务类型及描述如下。

AI推理服务类型	描述	参考文档

AI推理服务类型	描述	参考文档
GPU共享模型推理任务	当需要把多个模型推理任务部署到同一块GPU，通过共享GPU显存和算力资源，提高GPU利用率时，您可以使用Arena提交GPU共享模型推理任务。	提交GPU共享模型推理任务
TensorFlow模型推理服务	通过Arena部署TensorFlow-Serving推理服务。	部署TensorFlow模型推理服务
PyTorch模型推理服务	通过Triton或TorchServe方式部署PyTorch模型的推理服务。	提交GPU共享模型推理任务
容器化弹性推理	基于ECI或ECS运行弹性推理服务，满足弹性伸缩需求，降低成本。	基于ECI的弹性推理基于ECS的弹性推理