准备加速资源环境

接入PAI-TorchAcc进行训练加速前,您需先准备满足规格要求的训练资源环境,您可以直接在PAI上开通满足规格要求的DSW实例,或直接使用已有的ECS实例进行训练加速。本文为您介绍接入TorchAcc训练加速的环境要求。

环境规格要求

接入TorchAcc进行训练加速时,必须使用GPU类型的实例,GPU实例的版本和规格要求如下。

  • 版本要求

    驱动

    版本

    CUDA Driver

    11.3及以上版本

    Nvidia Driver

    470及以上版本

  • 规格要求

    实例规格

    是否支持

    V100M16

    支持

    V100M32

    支持

    GU50

    支持

    GU100

    支持

    GU108

    支持

    A10M24

    支持

    关于实例规格的更多详细介绍,请参见附录:公共资源规格列表

  • 镜像要求

    接入TorchAcc进行训练加速时,必须使用指定的TorchAcc测试镜像:registry.cn-hangzhou.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219

    说明

    目前,该镜像环境仅支持在华东1(杭州)地域使用。

准备测试环境

使用DSW环境

如果您希望在PAI平台进行TorchAcc接入测试,需要按照以下操作步骤创建DSW实例,并在DSW实例的Jupyter Notebook中进行测试。

  1. 在华东1(杭州)地域,创建专有资源组并按照环境规格要求新建资源。具体操作,请参见新建资源组并购买通用计算资源

  2. 进入资源组关联的工作空间,创建DSW实例,其中关键参数配置如下,更多内容请参见创建及管理DSW实例

    参数

    描述

    资源配额

    选择步骤1中已创建的专有资源组。

    • CPU(核数):配置为30。

    • 内存(GB):配置为180。

    • 共享内存(GB):配置为100。

    • GPU(卡数):配置为1。

    选择镜像

    镜像URL页签配置镜像地址:registry.cn-hangzhou.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219

    说明

    目前,该镜像环境仅支持在华东1(杭州)地域使用。

使用自有ECS实例

如果您希望使用自有的ECS资源进行TorchAcc训练加速,您也可以参考以下步骤准备好满足要求的ECS实例资源。

  1. 在华东1(杭州)地域,购买符合环境规格要求ECS实例,并安装好满足版本要求的Nvidia-smi、CUDA驱动。购买操作请参见创建实例,其中:

    • 实例:选择ecs.gn6v-c8g1.2xlarge

    • 镜像:选择公共镜像>Alibaba Cloud Linux>Alibaba Cloud Linux 3.2104 LST 64,选中安装 GPU驱动复选框,并选择CUDA版本11.4.1>Driver版本470.161.03>CUDNN版本8.2.4

    • 系统盘:建议分配不少于80 GiB的存储容量。

  2. ECS实例中安装Docker。具体操作,请参见安装Docker

  3. 安装NVIDIA Container Toolkit。具体操作,请参见Installing the NVIDIA Container Toolkit

    根据您的操作系统选择相应的安装命令,本文使用YumDnf进行安装,安装完成后重启Docker daemon。

  4. 使用以下脚本拉起TorchAcc镜像。

    DOCKER=registry.cn-hangzhou.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219
    name=TorchAcc_Tutorials
    
    set -x
    docker run \
        --name $name \
        --rm -it \
        --privileged \
        --ulimit memlock=-1:-1 \
        --gpus all \
        --shm-size 10G \
        -v /dev/shm:/dev/shm \
        --ipc host \
        --network host \
        --rm \
        --cap-add=CAP_SYS_ADMIN \
        -v /path/to/code:/workspace \
        -w /workspace \
        ${DOCKER} bash