NVIDIA GPU设备多用于科学计算、图形渲染等场景,为这些计算应用提供加速计算能力。容器服务 Kubernetes 版ACK支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何为集群添加GPU节点。
前提条件
创建GPU节点池
登录容器服务管理控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 。
单击创建节点池,选择实例规格为GPU云服务器,并设置期望节点数为所需节点数量。更多参数,请参见创建和管理节点池。
关于可选的GPU ECS规格,请参见ACK支持的GPU实例规格。
说明当在实例规格列表里没有可用实例时,可选择其他虚拟交换机进行尝试。
若您节点操作系统为Ubuntu 22.04或Red Hat Enterprise Linux(RHEL) 9.3 64位,由于NVIDIA Device Plugin组件会为Pod默认配置环境变量
NVIDIA_VISIBLE_DEVICES=all
,可能会因为节点执行systemctl daemon-reload
、systemctl daemon-reexec
命令后,无法访问GPU设备导致NVIDIA Device Plugin无法正常工作。更多详情,请参见运行GPU容器出现Failed to initialize NVML: Unknown Error的问题怎么办?。
查看节点挂载的GPU设备
节点池创建成功后,可查看节点挂载的GPU设备。
登录容器服务管理控制台,在左侧导航栏选择集群列表。
在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择 。
在目标节点所在行,单击操作列的详情,查看该节点挂载的GPU设备。
该文章对您有帮助吗?