部署GPU云服务器

GPU实例作为云服务器ECS的一类异构实例,保持了与ECS相同的创建方式,同时需要为GPU实例安装相关驱动。本文向您介绍使用CADT通过自动安装脚本的方式创建配备NVIDIA GPU的实例。

操作步骤

  1. 登录云速搭CADT控制台。

  2. 请按照标签顺序依次点击新建 > 应用,构建如下图所示的包含GPU云服务器实例的应用架构:

    本文所选地域为华北2(北京)可用区H。Image 76

  3. 双击GPU实例,配置相关参数。参考创建GPU实例,选择对应的实例规格、镜像及版本。Image 77

  4. 修改自定义登录密码。Image 78

  5. 实例自定义数据处,输入自动安装脚本:

    使用自动安装脚本时需要修改参数指定GPU驱动、CUDA、cuDNN库的版本,以及是否安装AIACC-Training和AIACC-Inference。

    1. 如果安装AIACC-Training,则将IS_INSTALL_AIACC_TRAIN的值设置为TRUE,否则设置为FALSE。

    2. 如果安装AIACC-Inference,则将IS_INSTALL_AIACC_INFERENCE的值设置为TRUE,否则设置为FALSE。

      本文配置示例如下:

      #!/bin/sh
      
      #Please input version to install
      IS_INSTALL_AIACC_TRAIN="TRUE"
      IS_INSTALL_AIACC_INFERENCE="TRUE"
      DRIVER_VERSION="450.80.02"
      CUDA_VERSION="11.0.2"
      CUDNN_VERSION="8.0.4"
      IS_INSTALL_RAPIDS="FALSE"
      
      INSTALL_DIR="/root/auto_install"
      
      #using .deb to install driver and cuda on ubuntu OS
      #using .run to install driver and cuda on ubuntu OS
      auto_install_script="auto_install_v3.3.sh"
      
      script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}"
      echo $script_download_url
      
      mkdir $INSTALL_DIR && cd $INSTALL_DIR
      wget -t 10 --timeout=10 $script_download_url && sh ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_AIACC_TRAIN $IS_INSTALL_AIACC_INFERENCE $IS_INSTALL_RAPIDS

      Image 79

  6. 配置完成后,请按照标签顺序点击执行保存与部署。Image 80Image 81

  7. 按界面提示操作,依次完成校验、创建资源,等待资源创建完成。

后续验证

  1. 部署完成后,单击GPU云服务器实例名称跳转到ECS控制台,通过Workbench远程连接GPU实例。

    Image 82Image 83Image 84Image 85

  2. 可以看到AIACC-Training、AIACC-Inference已经安装完成。Image 86

  3. 执行以下命令,确认NVIDIA 驱动已安装完成。

    nvidia-smi

    Image 1