为了方便您快速提交训练任务,您在创建训练任务前需准备好训练任务所需的通用训练资源或灵骏智算资源,并配置好训练任务可能需要使用的数据集和代码集,PAI支持添加文件系统NAS或对象存储OSS的数据集以及Git代码集。本文介绍提交训练任务前所需的准备工作。

前提条件

如果您使用OSS作为存储系统,请确保已经根据业务需求为服务关联角色授予了OSS访问权限。否则挂载OSS后,进行数据访问时,可能产生I/O错误。关于如何为服务关联角色授予OSS访问权限,请参见云产品依赖与授权:DLC

使用限制

由于OSS与NAS不同,并非一个真正的文件系统,而是一个分布式对象存储。因此使用OSS作为存储系统时,不支持文件系统的部分功能。例如,挂载OSS后,不支持对已经存在的文件追加写和覆盖写。

准备资源组

  • 准备通用训练资源组
    提交训练任务前,您需准备好训练任务所需的通用训练资源,通用训练资源包括公共资源组、自运维资源组和专有资源组通用训练资源
    • 公共资源组:授权完成DLC后,即为您准备好公共资源组,无需您手动添加资源组等操作。在工作空间的新建任务页面提交训练任务时,支持选择公共资源组。
    • 专有资源组:您可以预先创建专有资源组并购买计算资源,用于在工作空间的新建任务页面提交训练任务。
    • 自运维资源组:创建了符合要求的ACK集群后,您可以将ACK集群添加为自运维资源组,用于在PAI-DLC Dashboard页面提交训练任务。
    通用训练资源的介绍详情请参见通用训练资源概述,资源组的准备操作请参见新建及管理通用训练资源
  • 准备灵骏智算资源组

    如果您想高性能完成AI训练任务,提交训练任务前,您需要准备好训练任务所需的灵骏智算资源,并关联到工作空间,详情请参见灵骏智算资源概述

(可选)准备数据集

提交训练任务前,您需将训练任务所需的数据上传至OSS或NAS后,创建为训练任务可直接使用的数据集。准备提交训练任务所需的数据集时,有以下注意事项。
  • 创建用于训练任务的数据集时,仅支持创建从阿里云存储这种类型的数据集,且属性必须为文件夹
    重要 如果需要开启数据集加速,则加速挂载点挂载点类型需选择为VPC,且选择灵骏智算资源绑定的VPC与交换机。
    数据集操作入口及其他参数的配置详情请参见创建及管理数据集
  • 由于OSS与NAS不同,并非一个真正的文件系统,而是一个分布式对象存储。因此使用OSS作为存储系统时,不支持文件系统的部分功能。例如,挂载OSS后,不支持对已经存在的文件追加写和覆盖写。

(可选)准备代码集

提交训练任务前,您需将训练任务可能需要使用的代码添加为代码集。操作详情请参见代码配置准备代码仓

(可选)准备镜像

提交训练任务前,您需准备训练环境需要安装的镜像。您可以直接使用公开的社区标准镜像,PAI也为您提供了公共的阿里云官方镜像,同时您也可以使用自定义镜像。
  • 社区镜像:由社区提供的标准镜像,不同的镜像的详情请参见社区镜像版本详情
  • PAI平台镜像:由阿里云PAI产品提供的多种官方镜像,支持不同的资源类型、Python版本及深度学习框架TensorFlow和PyTorch,镜像列表请参见公共镜像列表
  • 用户自定义镜像:可选择使用您添加到PAI的自定义的镜像,选择前,您需要先将自定义镜像添加到PAI中,操作详情请参见查看并添加镜像
  • 镜像地址:使用您自定义的镜像时,也可以直接在相关训练任务的配置框中配置公网环境下可访问的Docker Registry Image URL。
如果您使用自定义镜像,建议您在工作空的AI资产管理 > 镜像页面中,将镜像添加为PAI的AI资产,便于多个训练任务直接选择使用,操作详情请参见查看并添加镜像镜像