文档

AI推理服务概述

更新时间:

借助ACK云原生AI套件提供的Arena命令行工具、AI负载调度、GPU管理、资源弹性伸缩等基础能力,您可以在Kubernetes集群中简便、高效地把训练好的模型部署为AI推理服务。阿里云容器服务ACK支持为推理服务提供弹性伸缩、GPU共享调度、性能监控、成本分析与优化等功能,降低您的运维成本。本文介绍使用ACK和云原生AI套件部署模型推理服务的相关信息。

重要

通过ack-arena使用的NVIDIA Triton Server、TensorFlow Serving均为第三方开源社区/商业公司提供的免费开源组件。您可以按需选用并安装相应的组件并配置服务器,以此部署模型推理服务,以及使用相关的模型测试、优化工具等。

但阿里云不承担第三方组件相关的稳定性、服务限制与安全合规等责任。您应及时关注对应第三方开源社区或商业公司的官网、代码托管平台的版本更新动态并仔细阅读及遵守相应的开源协议,自行承担因第三方组件导致的应用侧程序开发、维护、故障与安全等潜在风险。

云原生AI套件支持的AI推理服务类型及描述如下。

AI推理服务类型

描述

参考文档

GPU共享模型推理任务

当需要把多个模型推理任务部署到同一块GPU,通过共享GPU显存和算力资源,提高GPU利用率时,您可以使用Arena提交GPU共享模型推理任务。

提交GPU共享模型推理任务

Tensorflow模型推理服务

您可以通过Arena把Tensorflow模型部署成Tensorflow-serving推理服务。

部署Tensorflow模型推理服务

PyTorch模型推理服务

PyTorch是一种深度学习计算框架,可用来训练模型。您可以通过Triton或TorchServe方式部署PyTorch模型的推理服务。

提交GPU共享模型推理任务

弹性推理

您可以基于ECI或ECS运行弹性推理服务,满足推理服务的弹性伸缩的需求,降低您的成本。

  • 本页导读 (1)
文档反馈