使用PAI-Rapidformer进行模型的训练加速时,您需要先完成Rapidformer镜像的安装。本文为您介绍安装Rapidformer镜像的使用限制和操作要点。

使用限制

  • 当前Rapidformer镜像支持的地域为上海、北京、杭州、深圳,其他地域暂不支持。
  • 安装Rapidformer镜像时,仅支持使用GPU类型的实例。

step1:添加Rapidformer镜像

在安装Rapidformer镜像前,建议先将Rapidformer镜像添加到PAI的自定义镜像中,用于后续安装操作时选择关联。添加镜像时的操作关键配置如下,详细操作步骤请参见用户自定义镜像添加镜像
其中:
  • 关联ACR镜像:需要配置为对应工作空间所在地域的Rapidformer镜像地址。

    Rapidformer当前支持上海、北京、杭州、深圳这四个地域,不同地域的镜像地址请参见下文的参考:Rapidformer镜像地址

  • 其他参数:镜像名称、可见范围等参数根据实际情况配置即可。

step2:在PAI-DLC或DSW中安装镜像

在PAI-DLC中安装

PAI-DLC为开发者和企业提供了云原生一站式的深度学习训练平台,为您提供灵活、稳定、易用和高性能的机器学习训练环境。支持多种算法框架,超大规模分布式深度学习任务运行及自定义算法框架,为开发者和企业降本增效。

DLC提供了加载用户自定义镜像的能力,这极大方便了Rapidformer的部署。只需将镜像地址传给DLC,即可自动安装Rapidformer镜像,安装完成后就可以在DLC上基于Rapidformer开展多机多卡超大规模分布式训练。

在DLC上安装Rapidformer镜像的操作步骤与创建DLC任务一致,进入工作空间的训练任务提交页面后,关键配置信息如下所示。dlc安装其中:
  • 节点镜像:需要选择用户自定义镜像,并在镜像地址的配置框中选择上述步骤添加的Rapidformer自定义镜像。
  • 任务类型:需要选择为Pytorch
  • 节点配置:需要选择GPU类型的节点,并根据实际情况选择具体的节点规格。
  • 其他参数:镜像名称、执行命令等参数根据实际情况配置即可。

各参数的详细介绍及操作步骤请参见提交任务(通过控制台)

在PAI-DSW中安装

PAI-DSW(Data Science Workshop)是为算法开发者量身打造的云端深度学习开发环境,集成JupyterLab,插件化深度定制化开发,无需任何运维配置,沉浸式体验Notebook编写、调试及运行Python代码。支持开源框架的安装,并提供阿里巴巴深度优化的Tensorflow框架,通过编译优化提升训练性能。

DSW也提供了加载用户自定义镜像的能力,只需将镜像地址传给DSW,即可自动安装Rapidformer,安装完成后就可以在DSW上基于Rapidformer调试训练加速程序。

在DSW上安装Rapidformer镜像的操作步骤与创建DSW实例的操作一致,进入DSW实例创建页面后,关键配置信息如下所示。dsw安装其中:
  • 实例资源:需选择GPU实例类型的实例,并根据实际情况选择所需的实例规格。
  • 选择镜像:需选择用户自定义镜像,并在镜像地址的配置框中选择上述步骤添加的Rapidformer自定义镜像。
  • 其他参数:实例名称、实例版本等参数根据实际情况配置即可。
各参数的详细介绍及操作步骤请参见创建及管理DSW实例

step3:安装后试用

安装完成Rapidformer镜像后,您可以进入/workspace/examples目录,此目录下为您提供了nlp案例,您可以直接试用此案例。下图为在DSW安装镜像后,进入目录查找案例的示意图。安装后

参考:Rapidformer镜像地址

不同地域的Rapidformer镜像地址不一致,当前支持上海、北京、杭州、深圳这几个地域,同时显卡驱动版本在460.32及以上,镜像地址详情如下。
  • 上海地域:pai-image-manage-registry.cn-shanghai.cr.aliyuncs.com/pai/pai-rapidformer:1.7
  • 北京地域:pai-image-manage-registry.cn-beijing.cr.aliyuncs.com/pai/pai-rapidformer:1.7
  • 杭州地域:pai-image-manage-registry.cn-hangzhou.cr.aliyuncs.com/pai/pai-rapidformer:1.7
  • 深圳地域:pai-image-manage-registry.cn-shenzhen.cr.aliyuncs.com/pai/pai-rapidformer:1.7