通过YUM方式快速安装NVIDIA Tesla驱动(Alibaba Cloud Linux 3)

针对Alibaba Cloud Linux 3系统的GPU计算型实例,如果创建实例时未自动安装NVIDIA Tesla驱动,通过手动方式安装该驱动时,需要您先下载软件包,然后编译安装并配置CUDA等组件,操作比较繁琐,而采用YUM方式可以快速安装NVIDIA Tesla驱动及相关组件(例如CUDA、PyTorch以及TensorFlow等),可以更快更好地发挥GPU的高性能计算能力,或提供更流畅的图形显示效果。

说明

龙蜥社区在Anolis OS上提供了AI相关组件,Alibaba Cloud Linux 3是从Anolis 8系统基础上发展出来的,其与Anolis 8兼容,因此可以直接在Alibaba Cloud Linux 3安装Anolis 8的软件包(例如NVIDIA Tesla驱动、CUDA、PyTorch以及TensorFlow等),更多信息,请参见OpenAnolis龙蜥社区。其中,通过本文安装的NVIDIA Tesla驱动版本为525.105.17、CUDA版本为11.4,PyTorch版本为1.10.1、TensorFlow版本为2.5.0。

准备工作

说明

本文仅适用于Alibaba Cloud Linux 3操作系统的GPU计算型实例,且创建该实例时未同步自动安装NVIDIA Tesla驱动,更多信息,请参见GPU计算型

安装NVIDIA Tesla驱动前,请先准备GPU实例,然后配置epao仓库便于获取更多软件包,并为当前操作系统的内核安装kernel-devel包。具体操作如下:

  1. 创建GPU实例。

    本文以GPU计算型实例gn6i为例,该实例的操作系统为Alibaba Cloud Linux 3,且未安装NVIDIA Tesla驱动。具体操作,请参见创建GPU实例

  2. 远程连接GPU实例。

    具体操作,请参见通过密码或密钥认证登录Linux实例

  3. 执行以下命令,配置epao仓库以获取更多软件包。

    sudo yum install -y anolis-epao-release
  4. 执行以下命令,确认当前操作系统内核的kernel-devel包是否已安装。

    sudo rpm -qa | grep kernel-devel

    显示结果如下图所示时,表示操作系统内核的kernel-devel包已安装,则操作结束。

    kernel-devel.jpg

    否则执行kernel-devel包的安装操作。

    安装当前操作系统内核的kernel-devel包

    1. 执行uname -r命令,查看当前操作系统的内核版本。

      内核版本.jpg

    2. 执行以下命令,安装当前操作系统内核的kernel-devel包。

      本示例以内核版本号为5.10.134-16.3.al8.x86_64为例,请替换为您实际使用的内核版本号。

      sudo yum install -y kernel-devel-5.10.134-16.3.al8.x86_64

操作步骤

在安装NVIDIA Tesla驱动时,通常会同时安装CUDA、PyTorch 和TensorFlow组件,该组件都是用于加速深度学习和机器学习任务的工具。

  1. 执行以下命令,安装NVIDIA Tesla驱动。

    sudo yum install -y nvidia-driver nvidia-driver-cuda

    Dingtalk_20240808175720.jpg

  2. 安装CUDA Toolkit。

    1. 执行以下命令,安装CUDA Toolkit。

      sudo yum install -y cuda
    2. 执行ll /usr/local命令,查看CUDA Toolkit版本。

      20240812154944.jpg

  3. 执行以下命令,安装PyTorch。

    sudo yum install -y pytorch

    Dingtalk_20240808184042.jpg

  4. 执行以下命令,安装TensorFlow。

    sudo yum install -y tensorflow

    Dingtalk_20240808184328.jpg

测试验证

  • 检查版本

    执行nvidia-smi命令,如果驱动及组件已成功安装,则可以查看已安装的NVIDIA Tesla驱动版本。

    Dingtalk_20240808184441.jpg

  • 测试CUDA

    1. 执行cd命令,进入测试样例目录。

      在目录/usr/local/cuda-11.4/extras/demo_suite/中存在一些测试样例程序,例如CUDA示例程序deviceQuery

      image

    2. 执行sudo ./deviceQuery命令,查看CUDA的相关信息。

      例如纹理内存、常量内存、共享内存等信息。

      Dingtalk_20240808184909.jpg