Alibaba Cloud Linux 3 预装NVIDIA GPU驱动镜像

更新时间:
复制为 MD 格式

Alibaba Cloud Linux 3 预装NVIDIA GPU驱动和 CUDA专为AI开发与深度学习场景优化的高性能基础镜像,预置了主流版本的NVIDIA GPU驱动、CUDA、Docker引擎及NVIDIA Container Toolkit 等,开箱即用。您可快速部署GPU容器化环境,无缝运行大模型训练、推理任务,显著简化底层依赖配置,提升AI应用开发与部署效率。

预配置软件信息

该公共镜像预置驱动及软件信息如下:

内核版本、驱动及软件信息

Alibaba Cloud Linux 3 预装NVIDIA GPU驱动镜像

Alibaba Cloud Linux 3.2104 LTS 64位 预装NVIDIA open-source GPU驱动和 CUDA

操作系统内核版本

5.10.134-19.2.al8.x86_64

5.10.134-19.2.al8.x86_64

Nvidia GPU 驱动版本

580.126.09

580.126.09(开源内核模块类型)

CUDA版本

12.8(默认)、13.0

13.0(默认)、12.8

cuDNN版本

9.19.1.2

9.19.1.2

NCCL

v2.29.3-1

v2.29.3-1

nccl-test

v2.17.9

v2.17.9

OpenMPI

4.1.3

4.1.3

Docker

26.1.3

26.1.3

NVIDIA Container Toolkit

1.17.8

1.17.8

OFEDeRDMA

支持

支持

性能调优软件keentune

默认未开启。

支持

支持

Python 3

3.6.8

3.6.8

Alibaba Cloud Linux 3 预装NVIDIA GPU驱动镜像

支持的规格族

  • gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i

  • ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e

  • ebmgn7ix、ebmgn7ex

  • gn8is、ebmgn8is、gn8v、ebmgn8v

系统环境变量配置

  • /etc/profile.d/nccl.sh

    export NCCL_HOME=/usr/local/nccl
    export LD_LIBRARY_PATH=${NCCL_HOME}/lib:$LD_LIBRARY_PATH
  • /etc/profile.d/openmpi.sh

    export MPI_HOME=/usr/local/openmpi
    export LD_LIBRARY_PATH=${MPI_HOME}/lib:$LD_LIBRARY_PATH
    export PATH=${MPI_HOME}/bin:$PATH
  • /etc/profile.d/cuda.sh

    export PATH=/usr/local/cuda/bin:$PATH
    export CUDA_HOME=/usr/local/cuda
    export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

Alibaba Cloud Linux 3.2104 LTS 64位 预装NVIDIA open-source GPU驱动和 CUDA

支持的规格列表

  • ebmgn9g、ebmgn9gc、ebmgn9ge、ebmgn9t、gn9g、gn9t、gn9ge

  • gn8t、gn8te、ebmgn8t、ebmgn8te、ebmgn8ts、gn8ep

常见问题

如何为镜像开启keentune调优工具?

可通过如下步骤开启,并在操作系统重启后生效。

systemctl stop tuned
systemctl disable tuned
systemctl start keentune-target
systemctl enable keentune-target
systemctl enable keentuned
systemctl start keentuned
keentune profile set ai_common.profile

若想关闭keentune,执行keentune profile rollback即可,重启操作系统后生效。

ACK集群中使用Alibaba Cloud Linux 3 预装NVIDIA GPU驱动镜像需要注意什么?

请参考容器服务Kubernetes版文档中如何基于创建好的ECS实例创建自定义镜像,并使用该镜像创建节点使用须知及高危风险操作说明

镜像中安装了多个cuda 版本,如何切换 cuda 版本?

您可以通过执行 nvcc 命令检查当前 cuda 的版本

nvcc --version

当前GPU镜像使用 update-alternatives工具管理多cuda版本,比如镜像上同时安装了 cuda 13.0 和 12.8,如当前版本是 13.0,您希望切换到 12.8 版本,有以下两种方法:

  • 执行 update-alternatives --config cuda 命令切换 cuda 版本。

    update-alternatives --config cuda
    There are 2 choices for the alternative cuda (providing /usr/local/cuda).
    
      Selection    Path                  Priority   Status
    ------------------------------------------------------------
      0            /usr/local/cuda-13.0   20        auto mode
      1            /usr/local/cuda-12.8   10        manual mode
    * 2            /usr/local/cuda-13.0   20        manual mode
    
    Press <enter> to keep the current choice[*], or type selection number: 1  --> 选择您希望配置的版本的序号
    update-alternatives: using /usr/local/cuda-12.8 to provide /usr/local/cuda (cuda) in manual mode
  • 执行 --set 命令非交互式直接设置 cuda 版本。

update-alternatives --set cuda /usr/local/cuda-12.8