ACK集群支持GPU共享调度时节点需要安装cGPU模块。本文介绍如何通过命令及控制台升级节点上的cGPU模块。
步骤一:组件升级
| 集群类型 | 组件升级方式 | 
| 
 | ack-ai-installer组件升级方式,请参见升级共享GPU调度组件。 | 
| ACK专有集群 | ack-cgpu组件升级方式,请按照如下步骤进行: 
 | 
步骤二:存量节点升级
- 升级过程中需停止节点上的GPU业务应用。 
- 建议先操作一个节点,验证GPU业务没有问题以后,再批量操作其他GPU节点。 
- 本方案会重置节点的操作系统盘,如果您的节点操作系统盘存在数据,请先做好备份。 
1. 移除并重新添加节点
2. 结果验证
- 执行以下命令,查询新添加节点所对应的cgpu-installer。 - kubectl get po -l name=cgpu-installer -n kube-system -o wide- 预期输出: - NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS GATES cgpu-installer-***** 1/1 Running 0 4d2h 192.168.XXX.XX1 cn-beijing.192.168.XXX.XX1 <none> <none> cgpu-installer-**2 1/1 Running 0 4d2h 192.168.XXX.XX2 cn-beijing.192.168.XXX.XX2 <none> <none> cgpu-installer-**3 1/1 Running 0 4d2h 192.168.XXX.XX3 cn-beijing.192.168.XXX.XX3 <none> <none>
- 执行以下命令,进入名称为 - cgpu-installer-******的Pod。- kubectl exec -ti cgpu-installer-xxxxx -n kube-system -- bash
- 执行以下命令,查询cGPU当前版本。 - nsenter -t 1 -i -p -n -u -m -- cat /proc/cgpu_km/version- 示例输出: - 1.5.16说明- 关于最新的cGPU版本,请参见ack-ai-installer。 
cGPU版本兼容性
NVIDIA驱动兼容性
| cGPU版本 | 兼容的 NVIDIA 驱动 | 
| 1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | 支持: 
 | 
| 1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 | 支持: 
 不支持: 
 | 
| 1.0.3 0.8.17 0.8.13 | 支持: 
 不支持: 
 | 
实例规格族兼容性
| cGPU版本 | 兼容的实例规格族 | 
| 1.5.20 1.5.19 | 支持: 
 | 
| 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | 支持: 
 不支持: 
 | 
| 1.5.8 1.5.7 | 支持: 
 不支持: 
 | 
| 1.5.6 1.5.5 | 支持: 
 不支持: 
 | 
| 1.5.3 1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | 支持: 
 不支持: 
 | 
| 0.8.17 0.8.13 | 支持: 
 不支持: 
 | 
nvidia-container-toolkit兼容性
| cGPU版本 | 兼容的 nvidia-container-toolkit | 
| 1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 1.5.2 1.0.10 | 支持: 
 | 
| 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 0.8.17 0.8.13 | 支持: 
 不支持: 
 | 
kernel 版本兼容性
| cGPU版本 | 兼容的 kernel 版本 | 
| 1.5.20 1.5.19 1.5.18 1.5.17 1.5.16 1.5.15 1.5.13 1.5.12 1.5.11 1.5.10 1.5.9 | 支持: 
 | 
| 1.5.8 1.5.7 1.5.6 1.5.5 1.5.3 | 支持: 
 | 
| 1.5.2 1.0.10 1.0.9 1.0.8 1.0.7 1.0.6 1.0.5 1.0.3 | 支持: 
 | 
| 0.8.17 | 支持: 
 | 
| 0.8.13 0.8.12 0.8.10 | 支持: 
 不支持: 
 |