接入PAI-TorchAcc进行训练加速前,您需先准备满足规格要求的训练资源环境,您可以直接在PAI上开通满足规格要求的DSW实例,或直接使用已有的ECS实例进行训练加速。本文为您介绍接入TorchAcc训练加速的环境要求。
环境规格要求
接入TorchAcc进行训练加速时,必须使用GPU类型的实例,GPU实例的版本和规格要求如下。
版本要求
驱动
版本
CUDA Driver
11.3及以上版本
Nvidia Driver
470及以上版本
规格要求
实例规格
是否支持
V100M16
支持
V100M32
支持
GU50
支持
GU100
支持
GU108
支持
A10M24
支持
关于实例规格的更多详细介绍,请参见附录:公共资源组定价详情。
镜像要求
接入TorchAcc进行训练加速时,必须使用指定的TorchAcc测试镜像:
registry.<region>.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219
。说明实际使用时,请将<region>替换为当前地域ID,例如:华东2(上海)配置为cn-shanghai,其他地域ID,请参见地域和可用区。
准备测试环境
使用DSW环境
如果您希望在PAI平台进行TorchAcc接入测试,需要按照以下操作步骤创建DSW实例,并在DSW实例的Jupyter Notebook中进行测试。
创建专有资源组并按照环境规格要求新建资源,具体操作,请参见新建资源组并购买通用计算资源。
进入资源组关联的工作空间,创建DSW实例,其中关键参数配置如下,更多内容请参见创建及管理DSW实例。
参数
描述
资源配额
选择步骤1中已创建的专有资源组。
CPU(核数):配置为30。
内存(GB):配置为180。
共享内存(GB):配置为100。
GPU(卡数):配置为1。
选择镜像
在镜像URL页签配置镜像地址:
registry.<region>.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219
。说明实际使用时,请将<region>替换为当前地域ID,例如:华东2(上海)配置为cn-shanghai,其他地域ID,请参见地域和可用区。
使用自有ECS实例
如果您希望使用自有的ECS资源进行TorchAcc训练加速,您也可以参考以下步骤准备好满足要求的ECS实例资源。
购买符合环境规格要求的ECS实例,并安装好满足版本要求的Nvidia-smi、CUDA驱动。购买操作请参见创建实例,其中:
实例:选择ecs.gn6v-c8g1.2xlarge。
镜像:选择公共镜像>Alibaba Cloud Linux>Alibaba Cloud Linux 3.2104 LST 64位,选中安装 GPU驱动复选框,并选择CUDA版本11.4.1>Driver版本470.161.03>CUDNN版本8.2.4。
系统盘:建议分配不少于80 GiB的存储容量。
在ECS实例中安装Docker。具体操作,请参见安装Docker并使用(Linux)。
安装NVIDIA Container Toolkit。具体操作,请参见Installing the NVIDIA Container Toolkit。
根据您的操作系统选择相应的安装命令,本文使用Yum或Dnf进行安装,安装完成后重启Docker daemon。
使用以下脚本拉起TorchAcc镜像。
DOCKER=registry.<region>.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219 name=TorchAcc_Tutorials set -x docker run \ --name $name \ --rm -it \ --privileged \ --ulimit memlock=-1:-1 \ --gpus all \ --shm-size 10G \ -v /dev/shm:/dev/shm \ --ipc host \ --network host \ --rm \ --cap-add=CAP_SYS_ADMIN \ -v /path/to/code:/workspace \ -w /workspace \ ${DOCKER} bash
其中:<region>替换为当前地域ID,例如:华东2(上海)配置为cn-shanghai,其他地域ID,请参见地域和可用区。