AI任务概述

借助ACK云原生AI套件,您可以在Kubernetes集群中简便、高效地运行AI任务。首先,利用Arena命令行工具和AI负载调度等基础能力,您可以进行模型训练、测试和分析性能。然后,通过弹性数据集加速和GPU异构资源管理,您可以部署模型推理服务。本文介绍使用云原生AI套件运行典型任务的相关信息。

云原生AI套件支持的AI任务类型及描述如下。

AI任务类型

描述

参考文档

模型训练

您可以通过Arena提交各种类型的训练任务,包括单机训练、分布式训练和弹性训练。

模型管理

您可以关联和管理训练任务及其产出的模型。

MLflow模型仓库中的模型进行管理

模型分析优化

在模型正式部署前,您可以通过Arena提交模型性能分析和优化任务,确保模型达到上线标准。

模型分析优化