本文介绍如何在ACK托管集群Pro版添加灵骏节点池的相关操作。
灵骏节点池简介
ACK托管集群Pro版中的“灵骏节点池”与智能计算灵骏服务(灵骏裸金属集群)的节点分组为一对一的对应关系,即一个灵骏集群的节点分组可以对应一个ACK托管集群Pro版的灵骏节点池,意味着一个灵骏节点只能属于一个灵骏节点池。根据灵骏节点池的划分,可以实现对ACK托管集群Pro版中的灵骏节点进行不同的管理。
ACK托管集群Pro版通过灵骏节点池的形式管理灵骏节点,支持节点池生命周期管理以及节点批量添加和移除,提供与ECS节点池基本一致的管理和运维能力,包括节点配置、节点运维、调度应用至指定节点池,以及监控诊断和自动化运维等能力。
如果需要为灵骏节点提供云原生AI的增强能力,请安装云原生AI套件。灵骏节点池支持多GPU卡的拓扑感知调度,结合GPU容器虚拟化方案提供共享GPU调度和隔离;针对AI、HPC等任务特点,支持Gang、Capacity、Binpack等任务调度策略;还支持数据集编排和访问加速。
ACK托管集群Pro版的灵骏节点池功能目前处于邀测中,本功能为白名单方式开通,如果您需要开通使用,请通过PDSA联系容器服务团队。
计费说明
在ACK托管集群Pro版中使用灵骏节点池时,费用由三部分组成:
集群管理费 + 灵骏节点池管理费 + 云产品资源费
邀测期间,灵骏节点池的功能可以免费使用,ACK托管集群Pro版的其他费用(集群管理费和云产品资源费)仍然正常收取,请参见 计费概述。邀测结束后,灵骏节点池功能将恢复收费,邀测结束时间点会提前一周通知。
前提条件
ACK托管集群Pro版创建灵骏资源池时,需满足以下条件:
已创建集群类型为Lite的基础灵骏集群服务,并在灵骏节点分组中完成节点扩容。具体操作,请参见创建集群。
已创建ACK托管集群Pro版,且满足以下条件:
ACK托管集群Pro版与灵骏裸金属集群在相同地域及相同VPC下。
ACK托管集群Pro版为v1.31及以上版本。如需升级,请参见手动升级集群。
网络插件为Terway。
使用灵骏节点池时,同时保有ECS节点,用于部署部分ACK管控组件(建议使用3个及以上ECS节点以保证高可用)。
为了避免系统组件的Pod被调度到灵骏节点上占用资源,灵骏节点池中的节点默认会有以下标签和污点。如果您的Pod所在节点为灵骏节点,可添加对此Taint的容忍,也可以在升级组件后删除Taint,但请勿删除默认Label。
Label:alibabacloud.com/lingjun-worker:true Taint:Key:node-role.alibabacloud.com/lingjunEffect:NoSchedule
操作入口
您可以在目标集群的节点池页面进行节点池的相关操作,包括创建、编辑、删除、查看等。
登录容器服务管理控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 。
创建灵骏节点池
您可以在控制台完成节点池的配置,包括基本配置、网络配置、存储配置等。部分配置项(尤其是节点池可用性相关和网络相关的配置)在创建后不支持调整,请参见下文重点关注。创建节点池的过程中不会影响其他已有节点池内节点和业务的运行。
在节点池页面,单击⋮ > 创建灵骏节点池,然后在创建灵骏节点池对话框,完成创建灵骏节点池的配置项。关联已有的灵骏集群和灵骏分组。
节点池创建完成以后,支持在编辑节点池页面修改配置项。如下表所示,是否支持修改代表节点池创建后对应的配置项是否支持修改。
添加已有灵骏节点
如果您需要将灵骏分组中的灵骏节点添加到ACK集群中作为Worker节点,或将移除的Worker节点重新加入灵骏节点池,您可以在容器服务管理控制台,将灵骏节点池关联的分组中的灵骏节点,批量添加到灵骏节点池中。添加后,可以在节点池维度进行统一管理。
自动添加灵骏节点不会替换该节点原有的操作系统,不会替换原系统盘和数据盘,不影响其中存储的数据。待添加的灵骏节点实例必须已在本节点池关联的灵骏分组中,且未添加到节点池中。
登录容器服务管理控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点池。
在节点池页面,单击⋮ > 添加已有节点。
添加到节点池的灵骏节点实例不会随ACK集群或灵骏节点池的删除而释放,也不会从灵骏分组中自动缩容,请您关注灵骏节点的计费状态,避免产生额外费用。移除灵骏节点仅会将节点从灵骏节点池移出,不会将节点从灵骏分组中移出。如果您需要进行更多灵骏节点与分组的管理操作,请前往灵骏控制台操作。
使用RDMA功能
进入目标集群页面控制台,单击运维管理 > 组件管理,手动安装rdma-device-plugin
组件,以支持灵骏节点间的RDMA网络通信能力。
使用灵骏节点的RDMA网络通信时,请使用host网络模式。详细操作,请参见ACK灵骏节点使用RDMA。
升级组件
新建ACK托管集群Pro版时将默认使用最新组件版本。在存量的ACK托管集群Pro版中创建灵骏节点池时,如果已使用以下组件,请升级组件至指定版本。您可进入目标集群页面控制台,单击运维管理 > 组件管理进行安装。
组件名称 | 最低版本要求 |
组件名称 | 最低版本要求 |
v1.31 | |
v1.13.6 | |
v1.11.3.5-5321daf49-aliyun | |
v1.11.4-aliyun.2 | |
v0.2.1 | |
v0.16.1.0-gea4d02f-aliyun | |
v1.8.4 | |
v1.1.31 | |
v2.1.6 | |
v1.26(卸载后重装,卸载过程不影响已有业务) | |
v1.26(卸载后重装,卸载过程不影响已有业务) | |
v0.2.10 | |
ack-ai-installer(应用 > 云原生AI套件安装) | v1.12.2 |
更多操作
使用共享GPU调度。
如需在ACK托管集群Pro版中的灵骏节点上使用共享GPU调度,实现GPU的共享和隔离能力,请先安装云原生AI套件的ack-ai-installer,具体使用方法可参考使用共享GPU调度。
开启Binpack调度策略。
在灵骏节点池运行模型训练任务,您可以在Pod调度时启用Binpack策略,即开启Pod调度时启用优先集中放置策略,以减少训练过程中的跨机通信延迟,关于如何在Kube Scheduler组件中开启binpack,请参见自定义调度器参数。
在灵骏节点池使用网络拓扑感知调度。
如果需要在灵骏节点池使用网络拓扑感知调度,请安装Kube Scheduler,并升级至v1.31及以上,详细操作可参考使用网络拓扑感知调度。
- 本页导读 (1)
- 灵骏节点池简介
- 计费说明
- 前提条件
- 操作入口
- 创建灵骏节点池
- 添加已有灵骏节点
- 使用RDMA功能
- 升级组件
- 更多操作