云原生AI套件基于Kubernetes容器服务,以灵活、可扩展的组件化方式,为AI/ML应用和系统提供了自底向上的全栈支持和优化。云原生AI套件的核心能力组件通过Helm Chart进行部署和管理,便于进行一键部署、升级,以及自定义配置等操作。本文介绍云原生AI套件的配置项及配置项对应的核心组件。
控制台配置 | 组件配置 | 集群支持情况 | ||||
配置项 | 配置说明 | 组件名称及说明 | 命名空间 | ACK集群Pro版 | ACK Serverless集群Pro版 | ACK Edge集群Pro版 |
控制台配置 | 组件配置 | 集群支持情况 | ||||
配置项 | 配置说明 | 组件名称及说明 | 命名空间 | ACK集群Pro版 | ACK Serverless集群Pro版 | ACK Edge集群Pro版 |
弹性 | 是否开启弹性控制器功能。更多信息,请参见基于Kubernetes部署运行模型训练作业、容器化弹性推理。 | ack-alibaba-cloud-metrics-adapter,弹性伸缩组件。 | kube-system | |||
加速 | 是否开启Fluid数据加速功能。更多信息,请参见数据加速Fluid概述。 | ack-fluid,数据缓存加速组件。 | fluid-system | |||
调度 | 是否开启调度组件(批量任务调度、GPU共享、GPU拓扑感知、NPU调度)功能。单击高级配置,可自定义参数配置。 | ack-ai-installer,调度组件。 | kube-system | |||
是否开启Kube Queue任务队列功能。更多信息,请参见使用任务队列ack-kube-queue。 | ack-kube-queue,扩展的Kubernetes任务队列调度组件。 | kube-queue | ||||
交互方式 | Arena:如需使用命令行工具Arena(需要单独安装配置Arena客户端),则必须在此勾选Arena。安装后,您可以使用Arena命令行工具集成的Kubeflow的多种训练Operator。单击高级配置,可自定义参数配置。 若同时勾选Kube Queue、控制台、工作流,则默认必选Arena。更多信息,请参见配置Arena客户端。 | ack-arena(生态工具),机器学习命令行工具。 | kube-system | |||
控制台:部署轻量化人工智能平台 PAI平台。单击高级配置,可自定义参数配置。 部署轻量化人工智能平台 PAI平台,需要先创建docker-registry-secret,请参见PAI轻量化控制台部署指南。 | ack-pai,轻量化人工智能平台 PAI平台。推荐使用。 安装此组件后您可以直接使用PAI平台提供的深度优化的算法与引擎,以及沉淀的最佳实践,此外DSW、DLC、EAS等服务也为AI模型开发、训练和推理带来了更好的弹性和效率,极大地优化训练与推理的效果,降低了您AI开发的门槛。 | pai-system | ||||
控制台:部署AI套件控制台后,在提示对话框查看配置信息。关于配置详情,请参见安装配置云原生AI控制台。 | ack-ai-dashboard(生态工具),可视化运维控制台。 | kube-ai | ||||
ack-ai-dev-console(生态工具),深度学习开发控制台。 | kube-ai | |||||
控制台数据存储 | 选择交互方式为控制台后,需选择控制台数据存储方式为集群内置MySQL或阿里云RDS。关于配置详情,请参见安装配置云原生AI控制台。 | ack-mysql,MySQL数据库组件。 | kube-ai | |||
工作流 | 选中Kubeflow Pipelines后,您可以选择工作流数据存储方式为集群内置MinIO或阿里云OSS。关于配置详情,请参见安装配置工作流。 | ack-ai-pipeline(生态工具),构建端到端的机器学习工作流平台。 | kube-ai | |||
监控 | 是否安装监控组件。更多信息,请参见使用云原生AI监控大盘。 | ack-arena-exporter,集群监控组件。 | kube-ai |