为节点安装NVIDIA驱动时,请确保驱动版本包含在ACK支持的驱动版本列表中。本文介绍ACK支持的NVIDIA驱动版本列表。
CUDA介绍
CUDA是显卡厂商NVIDIA在2007年推出的并行计算平台和编程模型。CUDA利用图形处理器GPU(Graphics Processing Unit),可显著提高计算性能。
下图展示CUDA的架构体系。CUDA软件堆栈中的驱动层API和运行时层API的区别如下。
驱动层API(Driver API):功能较完整,但是使用复杂。
运行时API(CUDA Runtime API):封装了部分驱动的API,将某些驱动初始化操作隐藏,使用方便。
CUDA的Driver API由NVIDIA Driver包提供,而CUDA Library和CUDA Runtime由CUDA Toolkit包提供。
驱动和集群版本兼容性
ACK各集群版本支持的NVIDIA GPU驱动版本列表如下。
ACK灵骏集群及ACK托管集群Pro版的灵骏节点已在OS镜像中内置GPU驱动,不支持通过节点标签安装指定GPU驱动版本。 ACK Edge集群的边缘节点池不支持通过节点标签安装指定GPU驱动版本。
目前,510及其以上版本的驱动会偶发性出现XID 119或XID 120错误。如遇相关问题,请参见使用GPU时出现XID 119/XID 120错误导致GPU掉卡怎么办?进行排查。
目前,550驱动版本针对于某些应用频繁出现XID 119/120/31以及导致内核kernel panic等问题做了修复,建议您将存量GPU节点升级到550驱动版本。
ACK会不定期更新不同集群版本所使用的默认驱动版本,这可能会导致您的集群中新扩容GPU节点使用的驱动版本有所变化,如果需要避免这种情况,建议您给集群节点池指定驱动版本,请参见通过指定版本号自定义节点GPU驱动版本进行节点池标签的配置。
新建节点池过程中,如果您指定的驱动版本不存在于,ACK将自动安装默认驱动版本。若您指定了与最新操作系统不兼容驱动版本,可能存在节点添加失败的情况,需选择目前支持的最新驱动版本。
如果您的节点池通过指定版本号自定义节点GPU驱动版本或通过OSS URL自定义节点GPU驱动,在进行操作系统镜像升级时,可能存在操作系统与驱动版本不兼容情况。请参见ACK支持的NVIDIA驱动版本列表选择最新驱动。
集群版本 | 默认驱动版本 | 是否支持自定义驱动版本能力 | 支持的NVIDIA驱动版本 |
1.28及以上 | 550.163.01 | 是 |
下列驱动版本已与最新操作系统不兼容。
|
1.26 | 535.161.07 | 是 | |
1.24 | 535.161.07 | 是 | |
1.22 | 535.161.07 | 是 | |
1.20 | 535.161.07 | 是 |
|
1.18.8 | 418.181.07 | 是 | |
1.16.9 | 418.181.07 | 是 | |
1.16.6 | 418.87.01 | 否 | |
1.14.8 | 418.181.07 | 是 |
驱动和操作系统内核版本兼容性
涉及的内核版本与操作系统镜像ID的关系,请参考内核版本与镜像ID映射表。
驱动版本 | Alibaba Cloud Linux 2 | Alibaba Cloud Linux 3 | CentOS | Ubuntu |
550.163.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) |
550.144.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) |
550.90.07 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) |
550.54.15 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) |
550.54.14 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) |
535.247.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) |
535.230.02 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) |
535.161.07 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) |
535.129.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
535.98 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
535.54.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
525.147.05 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
525.105.17 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
515.105.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
515.86.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
510.108.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
510.54 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
510.47.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
470.256.02 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,∞) |
470.161.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-17.3.al8.x86_64] 不支持范围: [5.10.134-18.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
470.103.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
470.82.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
470.57.02 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
460.106.00 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 支持范围: [5.15.0-40-generic,5.15.0-101-generic] 不支持范围: [5.15.0-106-generic,∞) |
460.91.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
460.73.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
460.32.03 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
450.119.04 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
450.102.04 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 支持范围: [5.10.23-5.al8.x86_64,5.10.134-14.al8.x86_64] 不支持范围: [5.10.134-15.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
450.80.02 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
440.33.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
418.181.07 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
418.113 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
418.87.01 | 支持范围: [4.19.81-17.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
410.93 | 支持范围: [4.19.81-17.1.al7.x86_64,4.19.91-18.al7.x86_64] 不支持范围: [4.19.91-19.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,3.10.0-957.21.3.el7.x86_64] 不支持范围: [3.10.0-1062.9.1.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
410.79 | 支持范围: [4.19.81-17.1.al7.x86_64,4.19.91-18.al7.x86_64] 不支持范围: [4.19.91-19.1.al7.x86_64,∞) | 不支持范围: [5.10.23-5.al8.x86_64,∞) | 支持范围: [3.10.0-862.14.4.el7.x86_64,3.10.0-957.21.3.el7.x86_64] 不支持范围: [3.10.0-1062.9.1.el7.x86_64,∞) | 不支持范围: [5.15.0-40-generic,∞) |
驱动和CUDA Toolkit兼容性
您可以根据应用所使用的CUDA Toolkit版本,对照CUDA Toolkit与NVIDIA驱动的版本兼容性列表,选择合适的NVIDIA驱动版本。更多信息,请参见cuda-toolkit-release-notes。
获取驱动层API版本
如果一个节点安装了NVIDIA驱动包,则可以执行nvidia-smi
查看驱动版本和CUDA驱动API版本。如下所示,该节点安装的驱动版本为550.144.03,驱动API版本为12.6,表示该驱动最高支持CUDA运行时API版本为12.6。
Mon Mar 24 08:51:55 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.144.03 Driver Version: 550.144.03 CUDA Version: 12.6 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 Tesla P4 On | 00000000:00:07.0 Off | 0 |
| N/A 33C P8 7W / 75W | 0MiB / 7680MiB | 0% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| No running processes found |
+-----------------------------------------------------------------------------------------+
获取运行时API版本
容器镜像中安装CUDA Toolkit时,使用NVIDIA提供的CUDA基础镜像。这些基础镜像已经安装了CUDA Toolkit。您可以基于基础镜像构建应用容器镜像。您也可以根据不同的CUDA Toolkit版本选择不同的CUDA基础镜像。
在容器中使用GPU场景下,应用程序使用的CUDA运行时API版本与该应用的Docker镜像使用的CUDA基础镜像版本一致。例如,您的应用的Docker镜像基于CUDA基础镜像NVIDIA/CUDA:12.2.0-base-Ubuntu20.04
构建,那么应用使用的CUDA运行时API版本为12.2.0。