为了方便您快速提交训练任务,您在创建训练任务前需准备好训练任务所需的DLC资源组集群,并配置好训练任务可能需要使用的数据集和代码集,PAI支持添加文件系统NAS或对象存储OSS的数据集以及Git代码集。本文介绍提交训练任务前所需的准备工作。

前提条件

如果您使用OSS作为存储系统,请确保已经根据业务需求为服务关联角色授予了OSS访问权限。否则挂载OSS后,进行数据访问时,可能产生I/O错误。关于如何为服务关联角色授予OSS访问权限,请参见云产品依赖与授权:DLC

使用限制

由于OSS与NAS不同,并非一个真正的文件系统,而是一个分布式对象存储。因此使用OSS作为存储系统时,不支持文件系统的部分功能。例如,挂载OSS后,不支持对已经存在的文件追加写和覆盖写。

准备资源组集群

提交训练任务前,您需准备好训练任务所需的DLC集群资源。DLC资源包括公共资源组集群、自运维资源组集群和专有资源组集群DLC资源组
  • 公共DLC资源组集群:授权完成DLC后,即为您准备好公共DLC资源组,无需您手动添加资源组等操作。在工作空间的新建任务页面提交训练任务时,支持选择公共DLC资源组集群。
  • 专有DLC资源组集群:您可以预先创建专有DLC资源组集群并购买计算资源,用于在工作空间的新建任务页面提交训练任务。
  • 自运维DLC资源组集群:创建了符合要求的ACK集群后,您可以将ACK集群添加为自运维DLC资源组集群,用于在PAI-DLC Dashboard页面提交训练任务。
DLC资源组集群的介绍详情请参见PAI-DLC概述,资源组的准备操作请参见准备及管理DLC资源组集群

(可选)准备数据集

提交训练任务前,您需将训练任务所需的数据上传至OSS或NAS后,创建为训练任务可直接使用的数据集。准备提交训练任务所需的数据集时,有以下注意事项。
  • 创建用于训练任务的数据集时,仅支持创建从阿里云存储这种类型的数据集,且属性必须为文件夹数据集操作入口及其他参数的配置详情请参见创建及管理数据集
  • 由于OSS与NAS不同,并非一个真正的文件系统,而是一个分布式对象存储。因此使用OSS作为存储系统时,不支持文件系统的部分功能。例如,挂载OSS后,不支持对已经存在的文件追加写和覆盖写。

(可选)准备代码集

提交训练任务前,您需将训练任务可能需要使用的代码添加为代码集。操作详情请参见代码配置准备代码仓

(可选)准备镜像

提交训练任务前,您需准备训练环境需要安装的镜像。您可以直接使用公开的社区标准镜像,PAI也为您提供了公共的阿里云官方镜像,同时您也可以使用自定义镜像。
  • 社区镜像:由社区提供的标准镜像,不同的镜像的详情请参见社区镜像版本详情
  • PAI平台镜像:由阿里云PAI产品提供的多种官方镜像,支持不同的资源类型、Python版本及深度学习框架TensorFlow和PyTorch,镜像列表请参见公共镜像列表
  • 用户自定义镜像:可选择使用您添加到PAI的自定义的镜像,选择前,您需要先将自定义镜像添加到PAI中,操作详情请参见查看并添加镜像
  • 镜像地址:使用您自定义的镜像时,也可以直接在相关训练任务的配置框中配置公网环境下可访问的Docker Registry Image URL。
如果您使用自定义镜像,建议您在工作空的AI资产管理 > 镜像页面中,将镜像添加为PAI的AI资产,便于多个训练任务直接选择使用,操作详情请参见查看并添加镜像镜像