借助ACK云原生AI套件提供的Arena命令行工具、AI负载调度、弹性数据集加速、GPU异构资源管理等基础能力,您可以在Kubernetes集群中简便、高效地运行各种AI任务,比如模型训练、测试和分析模型性能、部署模型推理服务等。本文介绍使用云原生AI套件运行典型任务的相关信息。

云原生AI套件支持的AI任务类型及描述如下。

AI任务类型 描述 参考文档
模型训练 您可以通过Arena提交TensorFlow的单机训练任务和分布式训练任务、PyTorch的单机训练任务和分布式训练任务、弹性模型训练任务。
模型管理 您可以关联和管理训练任务及其产出的模型。 模型管理
模型评测 您可以通过Arena提交模型评测任务,对模型准确率、召回率等指标进行评测,查看或对比相应的评测结果。 模型评测
模型分析优化 在模型正式部署前,您可以通过Arena提交模型性能分析和优化任务,使用Tensorflow Profiler,Pytorch Profiler等常用工具对模型性能进行分析,确保您的模型在正式部署前达到上线标准。 模型分析优化