Alibaba Cloud Linux 3 预装NVIDIA GPU驱动和 CUDA专为AI开发与深度学习场景优化的高性能基础镜像,预置了主流版本的NVIDIA GPU驱动、CUDA、Docker引擎及NVIDIA Container Toolkit 等,开箱即用。您可快速部署GPU容器化环境,无缝运行大模型训练、推理任务,显著简化底层依赖配置,提升AI应用开发与部署效率。
预配置软件信息
该公共镜像预置驱动及软件信息如下:
内核版本、驱动及软件信息 | Alibaba Cloud Linux 3 预装NVIDIA GPU驱动镜像 | Alibaba Cloud Linux 3.2104 LTS 64位 预装NVIDIA open-source GPU驱动和 CUDA |
操作系统内核版本 | 5.10.134-19.2.al8.x86_64 | 5.10.134-19.2.al8.x86_64 |
Nvidia GPU 驱动版本 | 570.195.03 | 580.126.09(开源内核模块类型) |
CUDA版本 | 12.8 | 12.8 |
cuDNN版本 | 9.8.0.87 | 9.10.0.56 |
NCCL | v2.27.7-1 | v2.29.3-1 |
OpenMPI | 4.1.3 | 4.1.3 |
Docker | 26.1.3 | 26.1.3 |
NVIDIA Container Toolkit | 1.17.8 | 1.17.8 |
OFED和eRDMA | 支持 | 支持 |
性能调优软件keentune 默认未开启。 | 支持 | 支持 |
Python 3 | 3.6.8 | 3.6.8 |
Alibaba Cloud Linux 3 预装NVIDIA GPU驱动镜像
支持的规格族
gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i
ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e
ebmgn7ix、ebmgn7ex
gn8is、ebmgn8is、gn8v、ebmgn8v
系统环境变量配置
/etc/profile.d/nccl.sh
export NCCL_HOME=/usr/local/nccl export LD_LIBRARY_PATH=${NCCL_HOME}/lib:$LD_LIBRARY_PATH/etc/profile.d/openmpi.sh
export MPI_HOME=/usr/local/openmpi export LD_LIBRARY_PATH=${MPI_HOME}/lib:$LD_LIBRARY_PATH export PATH=${MPI_HOME}/bin:$PATH/etc/profile.d/cuda.sh
export PATH=/usr/local/cuda/bin:$PATH export CUDA_HOME=/usr/local/cuda export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
Alibaba Cloud Linux 3.2104 LTS 64位 预装NVIDIA open-source GPU驱动和 CUDA
支持的规格列表
ecs.ebmgn9g、ecs.ebmgn9gc、ecs.ebmgn9ge、ecs.ebmgn9t、ecs.gn9g、ecs.gn9t、ecs.gn9ge
常见问题
如何为镜像开启keentune调优工具?
可通过如下步骤开启,并在操作系统重启后生效。
systemctl stop tuned
systemctl disable tuned
systemctl start keentune-target
systemctl enable keentune-target
systemctl enable keentuned
systemctl start keentuned
keentune profile set ai_common.profile若想关闭keentune,执行keentune profile rollback即可,重启操作系统后生效。
在ACK集群中使用Alibaba Cloud Linux 3 预装NVIDIA GPU驱动镜像时需要注意什么?
请参考容器服务Kubernetes版文档中如何基于创建好的ECS实例创建自定义镜像,并使用该镜像创建节点和使用须知及高危风险操作说明。