云原生AI套件概述

云原生AI套件是阿里云容器服务ACK提供的云原生AI技术和产品方案。使用云原生AI套件,您可以充分利用云原生架构和技术,在Kubernetes容器平台上快速定制化构建AI生产系统,并为AI/ML应用和系统提供全栈优化。ACK Edge集群在云上环境保持AI套件完整的能力体验,在云下环境能力有所裁剪。本文将详细介绍不同节点和网络类型下AI套件在ACK Edge集群上的能力和使用限制。

使用限制

限制项

限制条件

AI套件组件

您在使用AI套件特定组件时需要注意组件本身的使用限制,如集群版本,NVIDIA驱动版本等,具体信息,请参见AI套件组件介绍

ACK Edge集群

如果您希望在边缘节点上使用云原生AI套件,目前仅支持特定的边缘节点操作系统和GPU型号,具体信息,请参见添加边缘节点

能力概览

image

ACK Edge集群ACK集群Pro版核心差异主要体现在以下两个方面:

  1. 网络连通性:ACK集群Pro版要求集群中的节点在同一个VPC内且网络连通。但在ACK Edge集群中情况较为复杂,需要从节点池维度考虑网络情况。不同网络情况下,AI套件能力也不同。

    1. 云上节点池:云上节点池的网络情况与ACK集群Pro版相同,管理同一个VPC内网络连通的ECS节点。

    2. 网络类型为专用型边缘节点池:专用型边缘节点池管理与云上专线连接的边缘节点,实现云上云下的网络互通。

    3. 网络类型为基础型边缘节点池:基础型边缘节点池管理通过公网接入的边缘节点,网络连通性无法确定。

  2. 节点环境:ACK Edge集群主要用来纳管您的线下资源,与云上ECS相比,节点环境复杂(如GPU型号,GPU驱动,OS版本等),GPU隔离的能力无法支持。

AI套件能力

对应组件名称

云上环境

边缘环境

操作链接

云上节点池

专用型边缘节点池

基础型边缘节点池

弹性

ack-alibaba-cloud-metrics-adapter

支持

支持

支持

加速

ack-fluid

支持

支持

支持

调度(批量任务调度、GPU共享、GPU拓扑感知)

ack-ai-installer

支持

仅不支持GPU显存隔离,剩余均支持

仅不支持GPU显存隔离,剩余均支持

调度(任务队列)

ack-kube-queue

支持

支持

支持

使用任务队列ack-kube-queue

交互方式(Arena)

ack-arena

支持

支持

支持

配置Arena客户端

交互方式(控制台)

ack-ai-dashboard

ack-ai-dev-console

ack-mysql

支持

支持

支持

工作流

ack-ai-pipeline

支持

支持

支持

安装云原生AI套件

监控

ack-arena-exporter

支持

支持

支持

使用云原生AI监控大盘

说明

在边缘节点池中,AI套件的加速能力只能在节点间网络互通的边缘节点池使用。

使用方式

基于ACK Edge集群的云边架构,我们建议您在使用AI套件的过程中通过节点池来管理不同的资源。

image
  1. 管控节点池:部署AI套件管控组件的云上节点池。

    1. 该节点池的节点不需要有GPU资源。

    2. 默认会使用ACK Edge集群自动创建的云上节点池default-nodepool作为管控节点池。

    3. 如果您需要开启AI套件的所有功能,该节点池需至少扩容至4个节点,以保证组件有足够的资源可以正常运行。具体操作,请参见扩容云上节点

  2. 弹性节点池:开启节点自动伸缩的云上节点池。

    如果您有弹性推理的需求,可以通过该节点池实现随业务需求动态变化的服务器弹性扩缩容。

  3. 边缘节点池:管理线下数据中心中不同类型的节点。

    建议您根据节点属性使用边缘节点池来管理一组相关的节点。例如您可以按照CPU架构划分为AMD节点池和Arm节点池,或者按照网络情况划分专线节点池和公网节点池等。