为节点安装NVIDIA驱动时,请确保驱动版本包含在ACK支持的驱动版本列表中。本文介绍ACK支持的NVIDIA驱动版本列表。
CUDA介绍
CUDA是显卡厂商NVIDIA在2007年推出的并行计算平台和编程模型。CUDA利用图形处理器GPU(Graphics Processing Unit),可显著提高计算性能。
下图展示CUDA的架构体系。CUDA软件堆栈中的驱动层API和运行时层API的区别如下。
- 驱动层API(Driver API):功能较完整,但是使用复杂。 
- 运行时API(CUDA Runtime API):封装了部分驱动的API,将某些驱动初始化操作隐藏,使用方便。 
CUDA的Driver API由NVIDIA Driver包提供,而CUDA Library和CUDA Runtime由CUDA Toolkit包提供。

驱动和集群版本兼容性
ACK各集群版本支持的NVIDIA GPU驱动版本列表如下。
- ACK灵骏集群及ACK托管集群Pro版的灵骏节点已在OS镜像中内置GPU驱动,不支持通过节点标签安装指定GPU驱动版本。 ACK Edge集群的边缘节点池不支持通过节点标签安装指定GPU驱动版本。 
- 目前,510及其以上版本的驱动会偶发性出现XID 119或XID 120错误。如遇相关问题,请参见使用GPU时出现XID 119/XID 120错误导致GPU掉卡怎么办?进行排查。 
- 目前,550驱动版本针对于某些应用频繁出现XID 119/120/31以及导致内核kernel panic等问题做了修复,建议您将存量GPU节点升级到550驱动版本。 
- ACK会不定期更新不同集群版本所使用的默认驱动版本,这可能会导致您的集群中新扩容GPU节点使用的驱动版本有所变化,如果需要避免这种情况,建议您给集群节点池指定驱动版本,请参见通过指定版本号自定义节点GPU驱动版本进行节点池标签的配置。 
- 新建节点池过程中,如果您指定的驱动版本不存在于驱动和操作系统内核版本兼容性,ACK将自动安装默认驱动版本。若您指定了与最新操作系统不兼容驱动版本,可能存在节点添加失败的情况,需选择目前支持的最新驱动版本。 
- 如果您的节点池通过指定版本号自定义节点GPU驱动版本或通过OSS URL自定义节点GPU驱动,在进行操作系统镜像升级时,可能存在操作系统与驱动版本不兼容情况。请参见ACK支持的NVIDIA驱动版本列表选择最新驱动。 
| 集群版本 | 默认驱动版本 | 是否支持自定义驱动版本能力 | 支持的NVIDIA驱动版本 | 
| 1.28及以上 | 535.161.07 | 是 | 
 下列驱动版本已与最新操作系统不兼容。 
 | 
| 1.26 | 535.161.07 | 是 | |
| 1.24 | 535.161.07 | 是 | |
| 1.22 | 535.161.07 | 是 | |
| 1.20 | 535.161.07 | 是 | 
 | 
| 1.18.8 | 418.181.07 | 是 | |
| 1.16.9 | 418.181.07 | 是 | |
| 1.16.6 | 418.87.01 | 否 | |
| 1.14.8 | 418.181.07 | 是 | 
驱动和操作系统内核版本兼容性
涉及的内核版本与操作系统镜像ID的关系,请参考内核版本与镜像ID映射表。
| 驱动版本 | Alibaba Cloud Linux 2 | Alibaba Cloud Linux 3 | CentOS | Ubuntu | 
| 550.163.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) | 
| 550.144.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) | 
| 550.90.07 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) | 
| 550.54.15 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) | 
| 550.54.14 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) | 
| 535.247.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) | 
| 535.230.02 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) | 
| 535.161.07 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) | 
| 535.129.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 535.98 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 535.54.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 525.147.05 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 525.105.17 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 515.105.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 515.86.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 510.108.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 510.54 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 510.47.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 470.256.02 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) | 
| 470.161.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 470.103.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 470.82.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 470.57.02 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 460.106.00 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) | 
| 460.91.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 460.73.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 460.32.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 450.119.04 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 450.102.04 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 450.80.02 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 440.33.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 418.181.07 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 418.113 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 418.87.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 410.93 | 支持范围: [4.19.81-17.1.al7.x86_64,4.19.91-18.al7.x86_64] 不支持范围: [4.19.91-19.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,3.10.0-957.21.3.el7.x86_64] 不支持范围: [3.10.0-1062.9.1.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
| 410.79 | 支持范围: [4.19.81-17.1.al7.x86_64,4.19.91-18.al7.x86_64] 不支持范围: [4.19.91-19.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,3.10.0-957.21.3.el7.x86_64] 不支持范围: [3.10.0-1062.9.1.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) | 
驱动和CUDA Toolkit兼容性
您可以根据应用所使用的CUDA Toolkit版本,对照CUDA Toolkit与NVIDIA驱动的版本兼容性列表,选择合适的NVIDIA驱动版本。更多信息,请参见cuda-toolkit-release-notes。
获取驱动层API版本
如果一个节点安装了NVIDIA驱动包,则可以执行nvidia-smi查看驱动版本和CUDA驱动API版本。如下所示,该节点安装的驱动版本为550.144.03,驱动API版本为12.6,表示该驱动最高支持CUDA运行时API版本为12.6。
Mon Mar 24 08:51:55 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.144.03             Driver Version: 550.144.03     CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  Tesla P4                       On  |   00000000:00:07.0 Off |                    0 |
| N/A   33C    P8              7W /   75W |       0MiB /   7680MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|  No running processes found                                                             |
+-----------------------------------------------------------------------------------------+获取运行时API版本
容器镜像中安装CUDA Toolkit时,使用NVIDIA提供的CUDA基础镜像。这些基础镜像已经安装了CUDA Toolkit。您可以基于基础镜像构建应用容器镜像。您也可以根据不同的CUDA Toolkit版本选择不同的CUDA基础镜像。
在容器中使用GPU场景下,应用程序使用的CUDA运行时API版本与该应用的Docker镜像使用的CUDA基础镜像版本一致。例如,您的应用的Docker镜像基于CUDA基础镜像NVIDIA/CUDA:12.2.0-base-Ubuntu20.04构建,那么应用使用的CUDA运行时API版本为12.2.0。