ACK集群支持GPU共享调度时节点需要安装cGPU模块。本文介绍如何通过命令及控制台升级节点上的cGPU模块。
前提条件
- 您已通过kubectl连接集群。具体操作,请参见通过kubectl连接Kubernetes集群。
- 集群已安装ack-cgpu组件。具体操作,请参见安装ack-cgpu组件。
- 升级节点上无正在运行的业务。
通过命令升级节点cGPU版本
cgpu-installer的DaemonSet用于在节点上安装cGPU驱动模块。在升级cGPU时,需要将cgpu-installer的镜像版本修改为待升级的版本。
目前支持的cGPU镜像版本如下:
- v0.8.10
- v0.8.12
- v0.8.13
说明 升级节点cGPU版本过程中会重启节点,所以在升级节点cGPU版本之前,请确认节点上无正在运行的业务。
结果验证
当节点重启后,登录该节点,执行以下命令查询cGPU版本。
cat /proc/cgpu_km/version
预期输出:
0.8.10
从预期输出可以得出,节点的cGPU版本已经成功升级到v0.8.10版本。
通过控制台升级节点cGPU版本
cgpu-installer的DaemonSet用于在节点上安装cGPU驱动模块。在升级cGPU时,需要将cgpu-installer的镜像版本修改为待升级的版本。
目前支持的cGPU镜像版本如下:
- v0.8.10
- v0.8.12
- v0.8.13
结果验证
当节点添加完成以后,验证节点的cGPU版本是否已升级。
- 执行以下命令查询新添加节点所对应的cgpu-installer。
kubectl get po -l name=cgpu-installer -n kube-system -o wide
预期输出:
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES cgpu-installer-kkmp6 1/1 Running 0 4d2h 192.168.XXX.XX1 cn-beijing.192.168.XXX.XX1 <none> <none> cgpu-installer-**2 1/1 Running 0 4d2h 192.168.XXX.XX2 cn-beijing.192.168.XXX.XX2 <none> <none> cgpu-installer-**3 1/1 Running 0 4d2h 192.168.XXX.XX3 cn-beijing.192.168.XXX.XX3 <none> <none>
- 执行以下命令进入
cgpu-installer-kkmp6
的Pod。kubectl exec -ti cgpu-installer-kkmp6 -n kube-system -- bash
- 执行以下命令查询cGPU当前版本。
nsenter -t 1 -i -p -n -u -m -- cat /proc/cgpu_km/version
预期输出:
0.8.10
从预期输出可以得出节点的cGPU版本已经为v0.8.10。