云原生AI套件基于Kubernetes容器服务,以灵活、可扩展的组件化方式,为AI/ML应用和系统提供了自底向上的全栈支持和优化。云原生AI套件的核心能力组件通过Helm Chart进行部署和管理,便于进行一键部署、升级,以及自定义配置等操作。本文介绍云原生AI套件的配置项及配置项对应的核心组件。
控制台配置 | 组件配置 | 集群支持情况 | ||||
配置项 | 配置说明 | 组件名称及说明 | 命名空间 | ACK集群Pro版 | ACK Serverless集群Pro版 | ACK Edge集群Pro版 |
弹性 | ack-alibaba-cloud-metrics-adapter,弹性伸缩组件。 | kube-system | ||||
加速 | 是否开启Fluid数据加速功能。更多信息,请参见数据加速Fluid概述。 | ack-fluid,数据缓存加速组件。 | fluid-system | |||
调度 | 是否开启调度组件(批量任务调度、GPU共享、GPU拓扑感知、NPU调度)功能。单击高级配置,可自定义参数配置。 | ack-ai-installer,调度组件。 | kube-system | |||
是否开启Kube Queue任务队列功能。更多信息,请参见使用任务队列ack-kube-queue。 | ack-kube-queue,Kube Queue任务队列。 | kube-queue | ||||
交互方式 | Arena:如需使用命令行工具Arena(需要单独安装配置Arena客户端),则必须在此勾选Arena。安装后,您可以使用Arena命令行工具集成的Kubeflow的多种训练Operator。单击高级配置,可自定义参数配置。 若同时勾选Kube Queue、控制台、工作流,则默认必选Arena。更多信息,请参见配置Arena客户端。 | ack-arena,机器学习命令行工具。该组件为必选。 | kube-system | |||
控制台:部署轻量化人工智能平台 PAI平台。单击高级配置,可自定义参数配置。 重要 部署轻量化人工智能平台 PAI平台,需要先创建docker-registry-secret,请参见PAI轻量化控制台部署指南。 | ack-pai,轻量化人工智能平台 PAI平台。 | pai-system | ||||
控制台:部署AI套件控制台后,在提示对话框查看配置信息。关于配置详情,请参见安装配置云原生AI控制台。 | ack-ai-dashboard,可视化运维控制台。 | kube-ai | ||||
ack-ai-dev-console,深度学习开发控制台。 | kube-ai | |||||
控制台数据存储 | 选择交互方式为控制台后,需选择控制台数据存储方式为集群内置MySQL或阿里云RDS。关于配置详情,请参见安装配置云原生AI控制台。 | ack-mysql,MySQL数据库组件。 | kube-ai | |||
工作流 | 选中Kubeflow Pipelines后,您可以选择工作流数据存储方式为集群内置MinIO或阿里云OSS。关于配置详情,请参见安装配置工作流。 | ack-ai-pipeline,构建端到端的机器学习工作流平台。 | kube-ai | |||
监控 | 是否安装监控组件。更多信息,请参见使用云原生AI监控大盘。 | ack-arena-exporter,集群监控组件。 | kube-ai |
- 本页导读 (1)