针对Alibaba Cloud Linux 3系统的GPU计算型实例,如果创建实例时未自动安装NVIDIA Tesla驱动,通过手动方式安装该驱动时,需要您先下载软件包,然后编译安装并配置CUDA等组件,操作比较繁琐,而采用YUM方式可以快速安装NVIDIA Tesla驱动及相关组件(例如CUDA、PyTorch以及TensorFlow等),可以更快更好地发挥GPU的高性能计算能力,或提供更流畅的图形显示效果。
龙蜥社区在Anolis OS上提供了AI相关组件,Alibaba Cloud Linux 3是从Anolis 8系统基础上发展出来的,其与Anolis 8兼容,因此可以直接在Alibaba Cloud Linux 3安装Anolis 8的软件包(例如NVIDIA Tesla驱动、CUDA、PyTorch以及TensorFlow等),更多信息,请参见OpenAnolis龙蜥社区。其中,通过本文安装的NVIDIA Tesla驱动版本为525.105.17、CUDA版本为11.4,PyTorch版本为1.10.1、TensorFlow版本为2.5.0。
准备工作
本文仅适用于Alibaba Cloud Linux 3操作系统的GPU计算型实例,且创建该实例时未同步自动安装NVIDIA Tesla驱动,更多信息,请参见GPU计算型。
安装NVIDIA Tesla驱动前,请先准备GPU实例,然后配置epao仓库便于获取更多软件包,并为当前操作系统的内核安装kernel-devel包。具体操作如下:
创建GPU实例。
本文以GPU计算型实例gn6i为例,该实例的操作系统为Alibaba Cloud Linux 3,且未安装NVIDIA Tesla驱动。具体操作,请参见创建GPU实例。
远程连接GPU实例。
具体操作,请参见通过密码或密钥认证登录Linux实例。
执行以下命令,配置epao仓库以获取更多软件包。
sudo yum install -y anolis-epao-release
执行以下命令,确认当前操作系统内核的kernel-devel包是否已安装。
sudo rpm -qa | grep kernel-devel
显示结果如下图所示时,表示操作系统内核的kernel-devel包已安装,则操作结束。
否则执行kernel-devel包的安装操作。
操作步骤
在安装NVIDIA Tesla驱动时,通常会同时安装CUDA、PyTorch 和TensorFlow组件,该组件都是用于加速深度学习和机器学习任务的工具。
执行以下命令,安装NVIDIA Tesla驱动。
sudo yum install -y nvidia-driver nvidia-driver-cuda
安装CUDA Toolkit。
执行以下命令,安装CUDA Toolkit。
sudo yum install -y cuda
执行
ll /usr/local
命令,查看CUDA Toolkit版本。
执行以下命令,安装PyTorch。
sudo yum install -y pytorch
执行以下命令,安装TensorFlow。
sudo yum install -y tensorflow
测试验证
检查版本
执行
nvidia-smi
命令,如果驱动及组件已成功安装,则可以查看已安装的NVIDIA Tesla驱动版本。测试CUDA
执行
cd
命令,进入测试样例目录。在目录
/usr/local/cuda-11.4/extras/demo_suite/
中存在一些测试样例程序,例如CUDA示例程序deviceQuery
。执行
sudo ./deviceQuery
命令,查看CUDA的相关信息。例如纹理内存、常量内存、共享内存等信息。