部署GPU云服务器

GPU实例作为云服务器ECS的一类异构实例,保持了与ECS相同的创建方式,同时需要为GPU实例安装相关驱动。本文向您介绍使用CADT通过自动安装脚本的方式创建配备NVIDIA GPU的实例。

操作步骤

  1. 登录云速搭CADT控制台。

  2. 通过新建 > 新建空白应用,构建如下图所示的包含GPU云服务器实例的应用架构:

    本文所选地域为华北2(北京)可用区HImage 76

  3. 双击GPU实例,配置相关参数。

    • 参考创建GPU实例,选择对应的实例规格、镜像及版本。Image 77

    • 需要修改自定义登录密码。Image 78

    • 实例自定义数据处,输入自动安装脚本:

      使用自动安装脚本时需要修改参数指定GPU驱动、CUDA、cuDNN库的版本,以及是否安装AIACC-Training和AIACC-Inference。

      • 如果安装AIACC-Training,则将IS_INSTALL_AIACC_TRAIN的值设置为TRUE,否则设置为FALSE。

      • 如果安装AIACC-Inference,则将IS_INSTALL_AIACC_INFERENCE的值设置为TRUE,否则设置为FALSE。

        本文配置示例如下:

        #!/bin/sh
        
        #Please input version to install
        IS_INSTALL_AIACC_TRAIN="TRUE"
        IS_INSTALL_AIACC_INFERENCE="TRUE"
        DRIVER_VERSION="450.80.02"
        CUDA_VERSION="11.0.2"
        CUDNN_VERSION="8.0.4"
        IS_INSTALL_RAPIDS="FALSE"
        
        INSTALL_DIR="/root/auto_install"
        
        #using .deb to install driver and cuda on ubuntu OS
        #using .run to install driver and cuda on ubuntu OS
        auto_install_script="auto_install_v3.3.sh"
        
        script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}"
        echo $script_download_url
        
        mkdir $INSTALL_DIR && cd $INSTALL_DIR
        wget -t 10 --timeout=10 $script_download_url && sh ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_AIACC_TRAIN $IS_INSTALL_AIACC_INFERENCE $IS_INSTALL_RAPIDS
        Image 79
  4. 配置完成,保存应用并部署。Image 80Image 81

  5. 按界面提示操作,依次完成校验、创建资源,等待资源创建完成。

后续验证

  1. 部署完成后,单击GPU云服务器实例名称跳转到ECS控制台,通过Workbench远程连接GPU实例。

    Image 82Image 83Image 84Image 85

  2. 可以看到AIACC-Training、AIACC-Inference已经安装完成。Image 86

  3. 执行以下命令,确认NVIDIA 驱动已安装完成。

    nvidia-smi
    Image 1