云原生AI套件概述
云原生AI套件是阿里云容器服务ACK提供的云原生AI技术和产品方案。使用云原生AI套件,您可以充分利用云原生架构和技术,在Kubernetes容器平台上快速定制化构建AI生产系统,并为AI/ML应用和系统提供全栈优化。ACK Edge集群在云上环境保持AI套件完整的能力体验,在云下环境能力有所裁剪。本文将详细介绍不同节点和网络类型下AI套件在ACK Edge集群上的能力和使用限制。
使用限制
限制项 | 限制条件 |
AI套件组件 | 您在使用AI套件特定组件时需要注意组件本身的使用限制,如集群版本,NVIDIA驱动版本等,具体信息,请参见AI套件组件介绍。 |
ACK Edge集群 | 如果您希望在边缘节点上使用云原生AI套件,目前仅支持特定的边缘节点操作系统和GPU型号,具体信息,请参见添加边缘节点。 |
能力概览
ACK Edge集群与ACK集群Pro版核心差异主要体现在以下两个方面:
网络连通性:ACK集群Pro版要求集群中的节点在同一个VPC内且网络连通。但在ACK Edge集群中情况较为复杂,需要从节点池维度考虑网络情况。不同网络情况下,AI套件能力也不同。
云上节点池:云上节点池的网络情况与ACK集群Pro版相同,管理同一个VPC内网络连通的ECS节点。
网络类型为专用型边缘节点池:专用型边缘节点池管理与云上专线连接的边缘节点,实现云上云下的网络互通。
网络类型为基础型边缘节点池:基础型边缘节点池管理通过公网接入的边缘节点,网络连通性无法确定。
节点环境:ACK Edge集群主要用来纳管您的线下资源,与云上ECS相比,节点环境复杂(如GPU型号,GPU驱动,OS版本等),GPU隔离的能力无法支持。
AI套件能力 | 对应组件名称 | 云上环境 | 边缘环境 | 操作链接 | |
云上节点池 | 专用型边缘节点池 | 基础型边缘节点池 | |||
弹性 | ack-alibaba-cloud-metrics-adapter | 支持 | 支持 | 支持 | |
加速 | 支持 | 支持 | 支持 | ||
调度(批量任务调度、GPU共享、GPU拓扑感知) | 支持 | 仅不支持GPU显存隔离,剩余均支持 | 仅不支持GPU显存隔离,剩余均支持 | ||
调度(任务队列) | 支持 | 支持 | 支持 | ||
交互方式(Arena) | 支持 | 支持 | 支持 | ||
交互方式(控制台) | ack-ai-dashboard ack-mysql | 支持 | 支持 | 支持 | |
工作流 | 支持 | 支持 | 支持 | ||
监控 | ack-arena-exporter | 支持 | 支持 | 支持 |
在边缘节点池中,AI套件的加速能力只能在节点间网络互通的边缘节点池使用。
使用方式
基于ACK Edge集群的云边架构,我们建议您在使用AI套件的过程中通过节点池来管理不同的资源。
管控节点池:部署AI套件管控组件的云上节点池。
该节点池的节点不需要有GPU资源。
默认会使用ACK Edge集群自动创建的云上节点池default-nodepool作为管控节点池。
如果您需要开启AI套件的所有功能,该节点池需至少扩容至4个节点,以保证组件有足够的资源可以正常运行。具体操作,请参见扩容云上节点。
弹性节点池:开启节点自动伸缩的云上节点池。
如果您有弹性推理的需求,可以通过该节点池实现随业务需求动态变化的服务器弹性扩缩容。
边缘节点池:管理线下数据中心中不同类型的节点。
建议您根据节点属性使用边缘节点池来管理一组相关的节点。例如您可以按照CPU架构划分为AMD节点池和Arm节点池,或者按照网络情况划分专线节点池和公网节点池等。