本文介绍在Kubernetes集群的GPU节点有业务运行,及集群刚刚创建GPU节点没有业务运行两种场景下,如何升级集群GPU节点的NVIDIA驱动。
前提条件
- 您已成功创建一个Kubernetes GPU集群,参见Kubernetes GPU集群支持GPU调度。
- 您可以通过kubectl连接到Kubernetes GPU集群,参见通过kubectl连接Kubernetes集群。
升级已有业务运行的GPU节点的驱动
执行结果
在Master节点执行以下命令,在升级驱动的GPU节点上验证升级后的驱动版本,可看到该GPU节点上NVIDIA驱动的版本为410.79,说明该节点的驱动已升级成功。

说明 请替换您实际的node-name。
kubectl exec -n kube-system -t nvidia-device-plugin-node-name nvidia-smi

集群刚刚创建,升级没有业务运行的GPU节点的驱动
执行结果
在Master节点执行以下命令,在升级驱动的GPU节点上验证升级后的驱动版本,可看到该GPU节点上NVIDIA驱动的版本为410.79,说明该节点的驱动已升级成功。

说明 请替换您实际的node-name。
kubectl exec -n kube-system -t nvidia-device-plugin-node-name nvidia-smi

在文档使用中是否遇到以下问题
更多建议
匿名提交