部署GPU云服务器
GPU实例作为云服务器ECS的一类异构实例,保持了与ECS相同的创建方式,同时需要为GPU实例安装相关驱动。本文向您介绍使用CADT通过自动安装脚本的方式创建配备NVIDIA GPU的实例。
操作步骤
登录云速搭CADT控制台。
请按照标签顺序依次点击新建 > 新建空白应用,构建如下图所示的包含GPU云服务器实例的应用架构:
本文所选地域为华北2(北京)可用区H。
双击GPU实例,配置相关参数。
参考创建GPU实例,选择对应的实例规格、镜像及版本。
需要修改自定义登录密码。
在实例自定义数据处,输入自动安装脚本:
使用自动安装脚本时需要修改参数指定GPU驱动、CUDA、cuDNN库的版本,以及是否安装AIACC-Training和AIACC-Inference。
如果安装AIACC-Training,则将IS_INSTALL_AIACC_TRAIN的值设置为TRUE,否则设置为FALSE。
如果安装AIACC-Inference,则将IS_INSTALL_AIACC_INFERENCE的值设置为TRUE,否则设置为FALSE。
本文配置示例如下:
#!/bin/sh #Please input version to install IS_INSTALL_AIACC_TRAIN="TRUE" IS_INSTALL_AIACC_INFERENCE="TRUE" DRIVER_VERSION="450.80.02" CUDA_VERSION="11.0.2" CUDNN_VERSION="8.0.4" IS_INSTALL_RAPIDS="FALSE" INSTALL_DIR="/root/auto_install" #using .deb to install driver and cuda on ubuntu OS #using .run to install driver and cuda on ubuntu OS auto_install_script="auto_install_v3.3.sh" script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}" echo $script_download_url mkdir $INSTALL_DIR && cd $INSTALL_DIR wget -t 10 --timeout=10 $script_download_url && sh ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_AIACC_TRAIN $IS_INSTALL_AIACC_INFERENCE $IS_INSTALL_RAPIDS
配置完成后,请按照标签顺序点击执行保存与部署。
按界面提示操作,依次完成校验、创建资源,等待资源创建完成。
后续验证
部署完成后,单击GPU云服务器实例名称跳转到ECS控制台,通过Workbench远程连接GPU实例。
可以看到AIACC-Training、AIACC-Inference已经安装完成。
执行以下命令,确认NVIDIA 驱动已安装完成。
nvidia-smi