为节点安装NVIDIA驱动时,请确保驱动版本包含在ACK支持的驱动版本列表中。本文介绍ACK支持的NVIDIA驱动版本列表。
ACK各集群版本支持的NVIDIA GPU驱动版本列表如下。
如果您使用的镜像为Alibaba Cloud Linux 3.2104 U7及以上版本,请使用2022年10月后发布的GPU驱动。Alibaba Cloud Linux 3.2104 U7的发布日期为2023年05月15日。
关于Alibaba Cloud Linux 3镜像发布记录,请参见Alibaba Cloud Linux 3镜像发布记录。
您可以在NVIDIA官网查询驱动版本及其发布日期。
目前,510及其以上版本的驱动会偶发性出现XID 119或XID 120错误。如遇相关问题,请参见使用GPU时出现XID 119/XID 120错误导致GPU掉卡怎么办?进行排查。
ACK会不定期更新不同集群版本所使用的默认驱动版本,这可能会导致您的集群中新扩容GPU节点使用的驱动版本有所变化,如果需要避免这种情况,建议您给集群节点池指定驱动版本,请参见通过指定版本号自定义节点GPU驱动版本进行节点池标签的配置。
如果指定的驱动版本不符合支持要求,ACK将自动安装默认驱动版本。
集群版本 | 默认驱动版本 | 是否支持自定义驱动版本能力 | 支持的NVIDIA驱动版本 |
1.30及以上 | 535.161.07 | 是 |
|
1.28 | 535.161.07 | 是 | |
1.26 | 535.161.07 | 是 | |
1.24 | 535.161.07 | 是 | |
1.22 | 535.161.07 | 是 | |
1.20 | 535.161.07 | 是 | |
1.18.8 | 418.181.07 | 是 |
|
1.16.9 | 418.181.07 | 是 | |
1.16.6 | 418.87.01 | 否 | |
1.14.8 | 418.181.07 | 是 |