创建和管理灵骏节点池

更新时间:2025-04-08 06:20:36

本文介绍如何在ACK托管集群Pro添加灵骏节点池的相关操作。

灵骏节点池简介

  • ACK托管集群Pro中的“灵骏节点池”与智能计算灵骏服务(灵骏裸金属集群)的节点分组为一对一的对应关系,即一个灵骏集群的节点分组可以对应一个ACK托管集群Pro的灵骏节点池,意味着一个灵骏节点只能属于一个灵骏节点池。根据灵骏节点池的划分,可以实现对ACK托管集群Pro中的灵骏节点进行不同的管理。

  • ACK托管集群Pro通过灵骏节点池的形式管理灵骏节点,支持节点池生命周期管理以及节点批量添加和移除,提供与ECS节点池基本一致的管理和运维能力,包括节点配置、节点运维、调度应用至指定节点池,以及监控诊断和自动化运维等能力。

  • 如果需要为灵骏节点提供云原生AI的增强能力,请安装云原生AI套件。灵骏节点池支持多GPU卡的拓扑感知调度,结合GPU容器虚拟化方案提供共享GPU调度和隔离;针对AI、HPC等任务特点,支持Gang、Capacity、Binpack等任务调度策略;还支持数据集编排和访问加速。

说明

ACK托管集群Pro的灵骏节点池功能目前处于邀测中,本功能为白名单方式开通,如果您需要开通使用,请通过PDSA联系容器服务团队。

计费说明

ACK托管集群Pro中使用灵骏节点池时,费用由三部分组成:

集群管理费 + 灵骏节点池管理费 + 云产品资源费

说明

邀测期间,灵骏节点池的功能可以免费使用,ACK托管集群Pro的其他费用(集群管理费和云产品资源费)仍然正常收取,请参见 计费概述。邀测结束后,灵骏节点池功能将恢复收费,邀测结束时间点会提前一周通知。

前提条件

ACK托管集群Pro创建灵骏资源池时,需满足以下条件:

  1. 已创建集群类型为Lite的基础灵骏集群服务,并在灵骏节点分组中完成节点扩容。具体操作,请参见创建集群

  2. 已创建ACK托管集群Pro,且满足以下条件:

    • ACK托管集群Pro与灵骏裸金属集群在相同地域及相同VPC下。

    • ACK托管集群Prov1.31及以上版本。如需升级,请参见手动升级集群

    • 网络插件为Terway。

  3. 使用灵骏节点池时,同时保有ECS节点,用于部署部分ACK管控组件(建议使用3个及以上ECS节点以保证高可用)。

    重要

    为了避免系统组件的Pod被调度到灵骏节点上占用资源,灵骏节点池中的节点默认会有以下标签和污点。如果您的Pod所在节点为灵骏节点,可添加对此Taint的容忍,也可以在升级组件后删除Taint,但请勿删除默认Label。

    Label:alibabacloud.com/lingjun-worker:true
    Taint:Key:node-role.alibabacloud.com/lingjunEffect:NoSchedule

操作入口

您可以在目标集群的节点池页面进行节点池的相关操作,包括创建、编辑、删除、查看等。

  1. 登录容器服务管理控制台,在左侧导航栏选择集群列表

  2. 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点池

创建灵骏节点池

您可以在控制台完成节点池的配置,包括基本配置、网络配置、存储配置等。部分配置项(尤其是节点池可用性相关和网络相关的配置)在创建后不支持调整,请参见下文重点关注。创建节点池的过程中不会影响其他已有节点池内节点和业务的运行。

节点池页面,单击⋮ > 创建灵骏节点池,然后在创建灵骏节点池对话框,完成创建灵骏节点池的配置项。关联已有的灵骏集群和灵骏分组。

节点池创建完成以后,支持在编辑节点池页面修改配置项。如下表所示,是否支持修改代表节点池创建后对应的配置项是否支持修改。

展开查看详细配置说明表。

  • 基础配置

    配置项

    说明

    是否支持修改

    节点池名称

    自定义的节点池名称。

    地域

    默认选择当前集群所在地域,且不可更改。

    容器运行时

    灵骏节点池仅支持容器运行时为containerdACK托管集群Pro

  • 灵骏资源

    配置项

    说明

    是否支持修改

    灵骏集群

    可以选择与ACK集群位于相同VPCLite类型的灵骏集群。

    灵骏分组

    可以选择与灵骏节点池位于相同VPC且未关联灵骏节点池的灵骏分组。

  • 高级配置

    展开高级选项(选填),配置节点标签、污点等信息。

    配置项

    说明

    是否支持修改

    污点 (Taints)

    为节点添加污点,污点(Taints)包含Effect(效果)。有效污点键包含前缀(可选)和名称。如果有前缀,用正斜线(/)分隔。更多信息,请参见污点和容忍度。污点有以下限制:

    • :污点键的名称长度为1~63个字符,必须以字母、数字或字符[a-z0-9A-Z]开头和结尾,中间可包含字母、数字、短划线(-)、下划线(_)、英文半角句号(.)。

      如果指定前缀,必须是DNS子域。即一系列由英文半角句号(.)分隔的DNS标签,不超过253个字符,并以正斜线(/)结尾。关于DNS子域,请参见DNS子域

    • :污点值可以为空,不超过63个字符,必须以字母、数字或字符[a-z0-9A-Z]开头和结尾,可包含字母、数字、短划线(-)、下划线(_)、英文半角句号(.)。

    • Effect:可选择NoScheduleNoExecutePreferNoSchedule三种。

      • NoSchedule:如果污点中存在至少一个Effect值为NoSchedule的污点,则系统不会将Pod分配到该节点。

      • NoExecute:任何不能忍受这个污点的Pod都会被驱逐,任何可以忍受这个污点的Pod都不会被驱逐。

      • PreferNoSchedule:系统会尽量避免将Pod调度到存在其不能容忍污点的节点上,但不会强制执行。

    节点标签(Labels)

    重要

    不允许删除灵骏节点池默认添加的Label:

    • service.alibabacloud.com/exclude-node

    • alibabacloud.com/lingjun-worker

    • alibabacloud.com/lingjun-hpnzone

    • alibabacloud.com/lingjun-zoneid

    • alibabacloud.com/lingjun-machine-type

    为节点添加标签,采用键值对形式。有效Key包含前缀(可选)和名称,如有前缀,前缀和名称之间用正斜线(/)分隔。标签有以下限制。

    • Key:名称长度为1~63个字符,必须以字母数字字符[a-z0-9A-Z]开头和结尾,中间可包含字母、数字、短划线(-)、下划线(_)、英文半角句号(.)。

      如果指定前缀,必须是DNS子域,即一系列由英文半角句号(.)分隔的DNS标签,不超过253个字符,以正斜线(/)结尾。

      以下前缀由Kubernetes核心组件保留,不支持指定

      • kubernetes.io/

      • k8s.io/

      • kubernetes.io/k8s.io/结尾的前缀。例如test.kubernetes.io/

        以下除外:

        • kubelet.kubernetes.io/

        • node.kubernetes.io

        • kubelet.kubernetes.io/结尾的前缀。

        • node.kubernetes.io结尾的前缀。

    • Value:可以为空,不超过63个字符,必须以字母数字字符[a-z0-9A-Z]开头和结尾,可包含字母、数字、短划线(-)、下划线(_)和英文半角句号(.)。

添加已有灵骏节点

如果您需要将灵骏分组中的灵骏节点添加到ACK集群中作为Worker节点,或将移除的Worker节点重新加入灵骏节点池,您可以在容器服务管理控制台,将灵骏节点池关联的分组中的灵骏节点,批量添加到灵骏节点池中。添加后,可以在节点池维度进行统一管理。

自动添加灵骏节点不会替换该节点原有的操作系统,不会替换原系统盘和数据盘,不影响其中存储的数据。待添加的灵骏节点实例必须已在本节点池关联的灵骏分组中,且未添加到节点池中。

  • 登录容器服务管理控制台,在左侧导航栏选择集群列表

  • 集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点池

  • 节点池页面,单击⋮ > 添加已有节点

重要

添加到节点池的灵骏节点实例不会随ACK集群或灵骏节点池的删除而释放,也不会从灵骏分组中自动缩容,请您关注灵骏节点的计费状态,避免产生额外费用。移除灵骏节点仅会将节点从灵骏节点池移出,不会将节点从灵骏分组中移出。如果您需要进行更多灵骏节点与分组的管理操作,请前往灵骏控制台操作。

使用RDMA功能

进入目标集群页面控制台,单击运维管理 > 组件管理手动安装rdma-device-plugin组件,以支持灵骏节点间的RDMA网络通信能力。

使用灵骏节点的RDMA网络通信时,请使用host网络模式。详细操作,请参见ACK灵骏节点使用RDMA

升级组件

新建ACK托管集群Pro时将默认使用最新组件版本。在存量的ACK托管集群Pro中创建灵骏节点池时,如果已使用以下组件,请升级组件至指定版本。您可进入目标集群页面控制台,单击运维管理 > 组件管理进行安装。

组件名称

最低版本要求

组件名称

最低版本要求

Kube Scheduler

v1.31

terway-eniip

v1.13.6

CoreDNS

v1.11.3.5-5321daf49-aliyun

Nginx Ingress Controller

v1.11.4-aliyun.2

ack-pod-identity-webhook

v0.2.1

security-inspector

v0.16.1.0-gea4d02f-aliyun

alicloud-monitor-controller

v1.8.4

ack-arms-prometheus

v1.1.31

logtail-ds

v2.1.6

csi-provisioner

v1.26(卸载后重装,卸载过程不影响已有业务)

csi-plugin

v1.26(卸载后重装,卸载过程不影响已有业务)

aliyun-acr-acceleration-suite

v0.2.10

ack-ai-installer(应用 > 云原生AI套件安装)

v1.12.2

更多操作

  • 使用共享GPU调度。

    如需在ACK托管集群Pro中的灵骏节点上使用共享GPU调度,实现GPU的共享和隔离能力,请先安装云原生AI套件的ack-ai-installer,具体使用方法可参考使用共享GPU调度

  • 开启Binpack调度策略。

    在灵骏节点池运行模型训练任务,您可以在Pod调度时启用Binpack策略,即开启Pod调度时启用优先集中放置策略,以减少训练过程中的跨机通信延迟,关于如何在Kube Scheduler组件中开启binpack,请参见自定义调度器参数

  • 在灵骏节点池使用网络拓扑感知调度。

    如果需要在灵骏节点池使用网络拓扑感知调度,请安装Kube Scheduler,并升级至v1.31及以上,详细操作可参考使用网络拓扑感知调度

  • 本页导读 (1)
  • 灵骏节点池简介
  • 计费说明
  • 前提条件
  • 操作入口
  • 创建灵骏节点池
  • 添加已有灵骏节点
  • 使用RDMA功能
  • 升级组件
  • 更多操作