ACK集群支持GPU共享调度时节点需要安装cGPU模块。本文介绍如何通过命令及控制台升级节点上的cGPU模块。
步骤一:组件升级
集群类型 | 组件升级方式 |
| ack-ai-installer组件升级方式,请参见升级共享GPU调度组件。 |
ACK专有集群 | ack-cgpu组件升级方式,请按照如下步骤进行:
|
步骤二:存量节点升级
升级过程中需停止节点上的GPU业务应用。
建议先操作一个节点,验证GPU业务没有问题以后,再批量操作其他GPU节点。
本方案会重置节点的操作系统盘,如果您的节点操作系统盘存在数据,请先做好备份。
1. 移除并重新添加节点
2. 结果验证
执行以下命令,查询新添加节点所对应的cgpu-installer。
kubectl get po -l name=cgpu-installer -n kube-system -o wide
预期输出:
NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES cgpu-installer-***** 1/1 Running 0 4d2h 192.168.XXX.XX1 cn-beijing.192.168.XXX.XX1 <none> <none> cgpu-installer-**2 1/1 Running 0 4d2h 192.168.XXX.XX2 cn-beijing.192.168.XXX.XX2 <none> <none> cgpu-installer-**3 1/1 Running 0 4d2h 192.168.XXX.XX3 cn-beijing.192.168.XXX.XX3 <none> <none>
执行以下命令,进入名称为
cgpu-installer-******
的Pod。kubectl exec -ti cgpu-installer-xxxxx -n kube-system -- bash
执行以下命令,查询cGPU当前版本。
nsenter -t 1 -i -p -n -u -m -- cat /proc/cgpu_km/version
示例输出:
1.5.16
说明关于最新的cGPU版本,请参见ack-ai-installer。
cGPU版本兼容性
NVIDIA驱动兼容性
cGPU版本 | 兼容的 NVIDIA 驱动 |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | 支持:
|
1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 | 支持:
不支持:
|
1.0.3 0.8.17 0.8.13 | 支持:
不支持:
|
实例规格族兼容性
cGPU版本 | 兼容的实例规格族 |
1.5.20 1.5.19 | 支持:
|
1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | 支持:
不支持:
|
1.5.8 1.5.7 | 支持:
不支持:
|
1.5.6 1.5.5 | 支持:
不支持:
|
1.5.3 1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | 支持:
不支持:
|
0.8.17 0.8.13 | 支持:
不支持:
|
nvidia-container-toolkit兼容性
cGPU版本 | 兼容的 nvidia-container-toolkit |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 1.5.2 1.0.10 | 支持:
|
1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 0.8.17 0.8.13 | 支持:
不支持:
|
kernel 版本兼容性
cGPU版本 | 兼容的 kernel 版本 |
1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | 支持:
|
1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | 支持:
|
1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | 支持:
|
0.8.17 | 支持:
|
0.8.13 0.8.12 0.8.10 | 支持:
不支持:
|