NVIDIA GPU设备多用于科学计算、图形渲染等场景,为这些计算应用提供加速计算能力。容器服务 Kubernetes 版ACK支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何为集群添加GPU节点。
前提条件
创建GPU节点池
- 登录容器服务管理控制台,在左侧导航栏选择集群列表。 
- 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择。 
- 单击创建节点池,选择实例规格为GPU云服务器,并设置期望节点数为所需节点数量。更多参数,请参见创建和管理节点池。 - 关于可选的GPU ECS规格,请参见ACK支持的GPU实例规格。 说明- 当在实例规格列表里没有可用实例时,可选择其他虚拟交换机进行尝试。 
- 若您节点操作系统为Ubuntu 22.04或Red Hat Enterprise Linux(RHEL) 9.3 64位,由于NVIDIA Device Plugin组件会为Pod默认配置环境变量 - NVIDIA_VISIBLE_DEVICES=all,可能会因为节点执行- systemctl daemon-reload、- systemctl daemon-reexec命令后,无法访问GPU设备导致NVIDIA Device Plugin无法正常工作。更多详情,请参见运行GPU容器出现Failed to initialize NVML: Unknown Error的问题怎么办?。
 
查看节点挂载的GPU设备
节点池创建成功后,可查看节点挂载的GPU设备。
- 登录容器服务管理控制台,在左侧导航栏选择集群列表。 
- 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择。 
- 在目标节点所在行,单击操作列的详情,查看该节点挂载的GPU设备。  
该文章对您有帮助吗?