部署GPU云服务器

更新时间:
复制为 MD 格式

GPU实例作为云服务器ECS的一类异构实例,保持了与ECS相同的创建方式,同时需要为GPU实例安装相关驱动。本文向您介绍使用CADT通过自动安装脚本的方式创建配备NVIDIA GPU的实例。

操作步骤

  1. 登录云速搭CADT控制台。

  2. 请依次点击新建 > 应用,构建包含GPU云服务器实例的应用架构:

    本文所选地域为华北2(北京)可用区H。应用架构包含专有网络VPC交换机VSwitch安全组GPU云服务器ECS实例。

  3. 双击GPU实例,配置相关参数。参考创建GPU实例,选择对应的实例规格、镜像及版本。例如,实例规格选择ecs.gn6i-c4g1.xlarge(4 vCPU、15 GiB、1×NVIDIA T4),镜像选择Alibaba Cloud Linux

  4. 修改自定义登录密码。在登录密码确认密码输入框中设置实例的登录密码。

  5. 实例自定义数据处,输入自动安装脚本:

    使用自动安装脚本时需要修改参数指定GPU驱动、CUDA、cuDNN库的版本,以及是否安装AIACC-TrainingAIACC-Inference。

    1. 如果安装AIACC-Training,则将IS_INSTALL_AIACC_TRAIN的值设置为TRUE,否则设置为FALSE。

    2. 如果安装AIACC-Inference,则将IS_INSTALL_AIACC_INFERENCE的值设置为TRUE,否则设置为FALSE。

      本文配置示例如下:

      #!/bin/sh
      
      #Please input version to install
      IS_INSTALL_AIACC_TRAIN="TRUE"
      IS_INSTALL_AIACC_INFERENCE="TRUE"
      DRIVER_VERSION="450.80.02"
      CUDA_VERSION="11.0.2"
      CUDNN_VERSION="8.0.4"
      IS_INSTALL_RAPIDS="FALSE"
      
      INSTALL_DIR="/root/auto_install"
      
      #using .deb to install driver and cuda on ubuntu OS
      #using .run to install driver and cuda on ubuntu OS
      auto_install_script="auto_install_v3.3.sh"
      
      script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}"
      echo $script_download_url
      
      mkdir $INSTALL_DIR && cd $INSTALL_DIR
      wget -t 10 --timeout=10 $script_download_url && sh ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_AIACC_TRAIN $IS_INSTALL_AIACC_INFERENCE $IS_INSTALL_RAPIDS

      实例自定义数据文本框中,将上述脚本内容粘贴填入。

  6. 配置完成后,请依次执行保存与部署。即先单击工具栏中的保存。然后单击部署,在弹出的确认对话框中确认执行部署。

  7. 按界面提示操作,依次完成校验、创建资源,等待资源创建完成。

后续验证

  1. 部署完成后,单击GPU云服务器实例名称跳转到ECS控制台,通过Workbench远程连接GPU实例。

    在云速搭应用详情页面中,可查看各资源(专有网络、交换机、安全组、GPU云服务器ECS)的部署状态均为已完成。单击GPU实例名称跳转至ECS控制台,在实例列表中可看到实例状态为运行中,单击右侧远程连接。在弹出的对话框中选择通过Workbench远程连接,单击立即登录。连接成功后进入Workbench终端命令行界面。

  2. 可以看到AIACC-Training、AIACC-Inference已经安装完成。

    Welcome to Alibaba Cloud Elastic Compute Service !
    
    Activate the web console with: systemctl enable --now cockpit.socket
    
    Last login: Tue Aug  3 21:14:10 2021 from 118.31.243.164
    
    ###### AIACC-Training and AIACC-Inference has installed on your machine!
    ###### Please execute [ . /root/miniconda/etc/profile.d/conda.sh ] to init miniconda.
    ###### You can execute [ conda env list ] to check the envs.
    ###### Please activate env with [ conda activate environments name ] eg: 'conda activate aiacc_tf1.15_tr1.4.0_mx1.5.0_cu10.0_py36', 'conda activate aiaccix_1.2.0a0'
  3. 执行以下命令,确认NVIDIA 驱动已安装完成。

    nvidia-smi
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 450.80.02    Driver Version: 450.80.02    CUDA Version: 11.0     |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |                               |                      |               MIG M. |
    |===============================+======================+======================|
    |   0  Tesla T4            Off  | 00000000:00:07.0 Off |                    0 |
    | N/A   34C    P0    16W /  70W |    306MiB / 15109MiB |      0%      Default |
    |                               |                      |                  N/A |
    +-------------------------------+----------------------+----------------------+
    
    +-----------------------------------------------------------------------------+
    | Processes:                                                                  |
    |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
    |        ID   ID                                                   Usage      |
    |=============================================================================|
    |  No running processes found                                                 |
    +-----------------------------------------------------------------------------+