接入PAI-TorchAcc进行训练加速前,您需先准备满足规格要求的训练资源环境,您可以直接在PAI上开通满足规格要求的DSW实例,或直接使用已有的ECS实例进行训练加速。本文为您介绍接入TorchAcc训练加速的环境要求。
环境规格要求
接入TorchAcc进行训练加速时,必须使用GPU类型的实例,GPU实例的版本和规格要求如下。
版本要求
驱动
版本
CUDA Driver
11.3及以上版本
Nvidia Driver
470及以上版本
规格要求
实例规格
是否支持
V100M16
支持
V100M32
支持
GU50
支持
GU100
支持
GU108
支持
A10M24
支持
关于实例规格的更多详细介绍,请参见附录:公共资源组定价详情。
镜像要求
接入TorchAcc进行训练加速时,必须使用指定的TorchAcc测试镜像:
registry.<region>.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219
。说明实际使用时,请将<region>替换为当前地域ID,例如:华东2(上海)配置为cn-shanghai,其他地域ID,请参见地域和可用区。
准备测试环境
使用DSW环境
如果您希望在PAI平台进行TorchAcc接入测试,需要按照以下操作步骤创建DSW实例,并在DSW实例的Jupyter Notebook中进行测试。
创建专有资源组并按照环境规格要求新建资源,具体操作,请参见新建及管理通用训练资源。
进入资源组关联的工作空间,创建DSW实例,其中关键参数配置如下,更多内容请参见创建及管理DSW实例。
参数
描述
资源类型
选择步骤1中已创建的专有资源组。
CPU(核数):配置为30。
内存(GB):配置为180。
共享内存(GB):配置为100。
GPU(卡数):配置为1。
选择镜像
在镜像URL页签配置镜像地址:
registry.<region>.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219
。说明实际使用时,请将<region>替换为当前地域ID,例如:华东2(上海)配置为cn-shanghai,其他地域ID,请参见地域和可用区。
使用自有ECS实例
如果您希望使用自有的ECS资源进行TorchAcc训练加速,您也可以参考以下步骤准备好满足要求的ECS实例资源。
登录ECS实例,安装好满足版本要求的Nvidia-smi、CUDA驱动。
使用以下脚本拉起TorchAcc镜像。
DOCKER=registry.<region>.aliyuncs.com/pai-dlc/pai-pytorch-training:torch-1.12-cuda11.3-py38-acc-230219 name=TorchAcc_Tutorials set -x docker run \ --name $name \ --rm -it \ --privileged \ --ulimit memlock=-1:-1 \ --gpus all \ --shm-size 10G \ -v /dev/shm:/dev/shm \ --ipc host \ --network host \ --rm \ --cap-add=CAP_SYS_ADMIN \ -v /path/to/code:/workspace \ -w /workspace \ ${DOCKER} bash
其中:<region>替换为当前地域ID,例如:华东2(上海)配置为cn-shanghai,其他地域ID,请参见地域和可用区。
- 本页导读 (1)