文档

准备加速资源环境

更新时间:

接入PAI-TorchAcc进行训练加速前,您需先准备满足规格要求的训练资源环境,您可以直接在PAI上开通满足规格要求的DSW实例,或直接使用已有的ECS实例进行训练加速。本文为您介绍接入TorchAcc训练加速的环境要求。

环境规格要求

接入TorchAcc进行训练加速时,必须使用GPU类型的实例,GPU实例的版本和规格要求如下。

  • 版本要求

    驱动

    版本

    CUDA Driver

    11.3及以上版本

    Nvidia Driver

    470及以上版本

  • 规格要求

    实例规格

    是否支持

    V100M16

    支持

    V100M32

    支持

    GU50

    支持

    GU100

    支持

    GU108

    支持

    A10M24

    支持

    关于实例规格的更多详细介绍,请参见附录:公共资源组定价详情

  • 镜像要求

    接入TorchAcc进行训练加速时,必须使用指定的TorchAcc测试镜像:registry.<region>.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219

    说明

    实际使用时,请将<region>替换为当前地域ID,例如:华东2(上海)配置为cn-shanghai,其他地域ID,请参见地域和可用区

准备测试环境

使用DSW环境

如果您希望在PAI平台进行TorchAcc接入测试,需要按照以下操作步骤创建DSW实例,并在DSW实例的Jupyter Notebook中进行测试。

  1. 创建专有资源组并按照环境规格要求新建资源,具体操作,请参见新建及管理通用训练资源

  2. 进入资源组关联的工作空间,创建DSW实例,其中关键参数配置如下,更多内容请参见创建及管理DSW实例

    参数

    描述

    资源类型

    选择步骤1中已创建的专有资源组。

    • CPU(核数):配置为30。

    • 内存(GB):配置为180。

    • 共享内存(GB):配置为100。

    • GPU(卡数):配置为1。

    选择镜像

    镜像URL页签配置镜像地址:registry.<region>.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219

    说明

    实际使用时,请将<region>替换为当前地域ID,例如:华东2(上海)配置为cn-shanghai,其他地域ID,请参见地域和可用区

使用自有ECS实例

如果您希望使用自有的ECS资源进行TorchAcc训练加速,您也可以参考以下步骤准备好满足要求的ECS实例资源。

  1. 购买符合环境规格要求的ECS实例,购买操作请参见创建实例

  2. 登录ECS实例,安装好满足版本要求的Nvidia-smi、CUDA驱动。

  3. 使用以下脚本拉起TorchAcc镜像。

    DOCKER=registry.<region>.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219
    name=TorchAcc_Tutorials
    
    set -x
    docker run \
        --name $name \
        --rm -it \
        --privileged \
        --ulimit memlock=-1:-1 \
        --gpus all \
        --shm-size 10G \
        -v /dev/shm:/dev/shm \
        --ipc host \
        --network host \
        --rm \
        --cap-add=CAP_SYS_ADMIN \
        -v /path/to/code:/workspace \
        -w /workspace \
        ${DOCKER} bash

    其中:<region>替换为当前地域ID,例如:华东2(上海)配置为cn-shanghai,其他地域ID,请参见地域和可用区

  • 本页导读 (1)
文档反馈