GPU实例作为云服务器ECS的一类异构实例,保持了与ECS相同的创建方式,同时需要为GPU实例安装相关驱动。本文向您介绍使用CADT通过自动安装脚本的方式创建配备NVIDIA GPU的实例。
操作步骤
-
登录云速搭CADT控制台。
-
请依次点击新建 > 应用,构建包含GPU云服务器实例的应用架构:
本文所选地域为华北2(北京)可用区H。应用架构包含专有网络VPC、交换机VSwitch、安全组和GPU云服务器ECS实例。
-
双击GPU实例,配置相关参数。参考创建GPU实例,选择对应的实例规格、镜像及版本。例如,实例规格选择ecs.gn6i-c4g1.xlarge(4 vCPU、15 GiB、1×NVIDIA T4),镜像选择Alibaba Cloud Linux。
-
修改自定义登录密码。在登录密码和确认密码输入框中设置实例的登录密码。
-
在实例自定义数据处,输入自动安装脚本:
使用自动安装脚本时需要修改参数指定GPU驱动、CUDA、cuDNN库的版本,以及是否安装AIACC-Training和AIACC-Inference。
-
如果安装AIACC-Training,则将IS_INSTALL_AIACC_TRAIN的值设置为TRUE,否则设置为FALSE。
-
如果安装AIACC-Inference,则将IS_INSTALL_AIACC_INFERENCE的值设置为TRUE,否则设置为FALSE。
本文配置示例如下:
#!/bin/sh #Please input version to install IS_INSTALL_AIACC_TRAIN="TRUE" IS_INSTALL_AIACC_INFERENCE="TRUE" DRIVER_VERSION="450.80.02" CUDA_VERSION="11.0.2" CUDNN_VERSION="8.0.4" IS_INSTALL_RAPIDS="FALSE" INSTALL_DIR="/root/auto_install" #using .deb to install driver and cuda on ubuntu OS #using .run to install driver and cuda on ubuntu OS auto_install_script="auto_install_v3.3.sh" script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}" echo $script_download_url mkdir $INSTALL_DIR && cd $INSTALL_DIR wget -t 10 --timeout=10 $script_download_url && sh ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_AIACC_TRAIN $IS_INSTALL_AIACC_INFERENCE $IS_INSTALL_RAPIDS在实例自定义数据文本框中,将上述脚本内容粘贴填入。
-
-
配置完成后,请依次执行保存与部署。即先单击工具栏中的保存。然后单击部署,在弹出的确认对话框中确认执行部署。
-
按界面提示操作,依次完成校验、创建资源,等待资源创建完成。
后续验证
-
部署完成后,单击GPU云服务器实例名称跳转到ECS控制台,通过Workbench远程连接GPU实例。
在云速搭应用详情页面中,可查看各资源(专有网络、交换机、安全组、GPU云服务器ECS)的部署状态均为已完成。单击GPU实例名称跳转至ECS控制台,在实例列表中可看到实例状态为运行中,单击右侧远程连接。在弹出的对话框中选择通过Workbench远程连接,单击立即登录。连接成功后进入Workbench终端命令行界面。
-
可以看到AIACC-Training、AIACC-Inference已经安装完成。
Welcome to Alibaba Cloud Elastic Compute Service ! Activate the web console with: systemctl enable --now cockpit.socket Last login: Tue Aug 3 21:14:10 2021 from 118.31.243.164 ###### AIACC-Training and AIACC-Inference has installed on your machine! ###### Please execute [ . /root/miniconda/etc/profile.d/conda.sh ] to init miniconda. ###### You can execute [ conda env list ] to check the envs. ###### Please activate env with [ conda activate environments name ] eg: 'conda activate aiacc_tf1.15_tr1.4.0_mx1.5.0_cu10.0_py36', 'conda activate aiaccix_1.2.0a0' -
执行以下命令,确认NVIDIA 驱动已安装完成。
nvidia-smi+-----------------------------------------------------------------------------+ | NVIDIA-SMI 450.80.02 Driver Version: 450.80.02 CUDA Version: 11.0 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla T4 Off | 00000000:00:07.0 Off | 0 | | N/A 34C P0 16W / 70W | 306MiB / 15109MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+