借助ACK云原生AI套件提供的Arena命令行工具和AI负载调度,您可以在Kubernetes集群中高效地部署训练好的模型为AI推理服务。阿里云容器服务ACK支持弹性伸缩、GPU共享调度和性能监控,降低运维成本。本文介绍使用ACK和云原生AI套件部署模型推理服务的相关信息。
重要
通过ack-arena使用的NVIDIA Triton Server、TensorFlow Serving均为第三方开源社区/商业公司提供的免费开源组件。您可以按需选用并安装相应的组件并配置服务器,以此部署模型推理服务,以及使用相关的模型测试、优化工具等。
但阿里云不承担第三方组件相关的稳定性、服务限制与安全合规等责任。您应及时关注对应第三方开源社区或商业公司的官网、代码托管平台的版本更新动态并仔细阅读及遵守相应的开源协议,自行承担因第三方组件导致的应用侧程序开发、维护、故障与安全等潜在风险。
云原生AI套件支持的AI推理服务类型及描述如下。
AI推理服务类型 | 描述 | 参考文档 |
GPU共享模型推理任务 | 当需要把多个模型推理任务部署到同一块GPU,通过共享GPU显存和算力资源,提高GPU利用率时,您可以使用Arena提交GPU共享模型推理任务。 | |
TensorFlow模型推理服务 | 通过Arena部署TensorFlow-Serving推理服务。 | |
PyTorch模型推理服务 | 通过Triton或TorchServe方式部署PyTorch模型的推理服务。 | |
容器化弹性推理 | 基于ECI或ECS运行弹性推理服务,满足弹性伸缩需求,降低成本。 |
文档内容是否对您有帮助?