创建GPU节点池为集群添加GPU节点-容器服务 Kubernetes 版 ACK-阿里云

NVIDIA GPU设备多用于科学计算、图形渲染等场景，为这些计算应用提供加速计算能力。容器服务 Kubernetes 版ACK支持对各种型号的计算型GPU资源进行统一调度和运维管理，能够显著提高GPU集群资源的使用效率。本文介绍如何为集群添加GPU节点。

前提条件

登录容器服务管理控制台，在左侧导航栏选择集群列表。
在集群列表页面，单击目标集群名称，然后在左侧导航栏，选择节点管理 > 节点池。
单击创建节点池，选择实例规格为GPU云服务器，并设置期望节点数为所需节点数量。更多参数，请参见创建和管理节点池。
关于可选的GPU ECS规格，请参见ACK支持的GPU实例规格。
说明
- 当在实例规格列表里没有可用实例时，可选择其他虚拟交换机进行尝试。
- 若您节点操作系统为Ubuntu 22.04或Red Hat Enterprise Linux(RHEL) 9.3 64位，由于NVIDIA Device Plugin组件会为Pod默认配置环境变量NVIDIA_VISIBLE_DEVICES=all，可能会因为节点执行systemctl daemon-reload、systemctl daemon-reexec命令后，无法访问GPU设备导致NVIDIA Device Plugin无法正常工作。更多详情，请参见运行GPU容器出现Failed to initialize NVML: Unknown Error的问题怎么办？。

节点池创建成功后，可查看节点挂载的GPU设备。