准备工作

为了方便您快速提交训练任务,您需要在创建训练任务前准备好所需的资源,并配置好可能需要使用的镜像、数据集和代码集。PAI支持添加文件系统NAS、CPFS或对象存储OSS类型的数据集以及Git代码集。本文介绍提交训练任务前所需的准备工作。

前提条件

如果您使用OSS作为存储系统,请确保已经根据业务需求为DLC授予了OSS访问权限。否则挂载OSS后,进行数据访问时,可能产生I/O错误。关于如何为DLC授予OSS访问权限,请参见云产品依赖与授权:DLC

使用限制

OSS并非一个真正的文件系统,而是一个分布式对象存储。因此使用OSS作为存储系统时,不支持文件系统的部分功能。例如,挂载OSS后,不支持对已经存在的文件进行追加写和覆盖写。

步骤一:准备资源

提交训练任务前,您需要准备计算资源,用于后续AI训练。以下资源任选其一即可:

  • 准备公共资源

    完成DLC授权后,即为您准备好通用计算资源公共资源,无需您手动添加资源组等操作。在工作空间的新建任务页面提交训练任务时,支持选择公共资源。

  • 准备通用计算资源

    您可以预先创建专有资源组,并购买所需的通用计算资源。通过新增资源配额来分配专有资源组的计算资源。后续,您只需将资源配额绑定到指定的工作空间中,就可以在该工作空间内使用资源配额提交训练任务。详情请参见通用计算资源配额

  • 准备灵骏智算资源

    如果您想高性能完成AI训练任务,提交训练任务前,您需要准备好训练任务所需的灵骏智算资源,并关联到工作空间内。详情请参见灵骏智算资源配额

步骤二:准备镜像

提交训练任务前,请准备训练环境需要安装的镜像。以下镜像任选其一即可:

  • 官方镜像:针对特定于阿里云服务的优化和集成,PAI提供了基于不同框架的官方镜像。此类镜像适合在阿里云平台上进行训练任务,能够获得更好的兼容性和性能。前往PAI控制台的AI资产管理镜像页面,在镜像页面的PAI官方镜像页签中,您可以通过筛选使用子产品DLC,来查看支持提交DLC任务的镜像列表详细信息。image

  • 自定义镜像:如果您的训练任务需要特殊的环境或依赖,可选择使用您添加到PAI的自定义镜像,在选择前,您需要先将自定义镜像添加到PAI中。为了方便管理和使用,建议您在工作空间的AI资产管理 > 镜像页面中,将该镜像添加为PAIAI资产,便于多个训练任务直接选择使用。操作详情请参见自定义镜像

    重要

    使用灵骏智算资源提交训练任务时,如果选择使用自定义镜像提交训练任务,则相关注意事项,请参见RDMA:使用高性能网络进行分布式训练

  • 镜像地址:提交训练任务时,支持填写您的自定义镜像或官方镜像地址。您可以前往PAI控制台的AI资产管理镜像页面,查看镜像地址。

步骤三:准备数据集

提交训练任务前,您可以将训练任务所需的数据上传至对象存储OSS、文件存储NAS或文件存储CPFS后,并将其创建为训练任务可直接使用的自定义数据集。您也可以直接挂载对象存储(OSS)数据或公共数据集。以下内容为您介绍如何准备自定义数据集:

支持的数据集类型

支持对象存储(OSS)、文件存储(通用型NAS)、文件存储(极速型NAS)、文件存储(CPFS)和文件存储(智算CPFS)类型的数据集。除文件存储(智算CPFS)类型外,其他类型的数据集均支持开启数据集加速功能。后续提交分布式训练任务时,可直接使用已开启加速的数据集,提升数据读取效率。

创建数据集

操作入口及相关参数的配置详情请参见创建及管理数据集。准备数据集时,有以下注意事项:

  • 创建用于训练任务的数据集时,仅支持从阿里云云产品这种类型的数据集,且属性必须为文件夹

  • 由于OSSNAS不同,并非一个真正的文件系统,而是一个分布式对象存储。因此使用OSS作为存储系统时,不支持文件系统的部分功能。例如,挂载OSS后,不支持对已经存在的文件追加写和覆盖写。

  • 如果创建的数据集类型为文件存储(CPFS),则在提交训练任务时,需要配置专有网络,并选择与CPFS一致的专有网络。否则,提交的DLC训练任务会运行异常,任务可能长时间处于环境准备中状态

开启数据集加速功能

您可以开启数据集加速功能,在提交训练任务时,可以直接使用已开启加速的数据集,提升数据读取效率。详情请参见PAI平台使用数据集加速器

步骤四:准备代码集

提交训练任务前,您需将训练任务可能需要使用的代码添加为代码集。为了方便管理和使用,建议您在工作空间的AI资产管理 > 代码配置页面中,将该代码添加为PAIAI资产,便于多个训练任务直接选择使用。操作详情请参见代码配置

相关文档

完成准备工作后,您可以创建训练任务,详情请参见创建训练任务