为了方便您快速提交训练任务,您需要在创建训练任务前准备好所需的资源,并配置好可能需要使用的镜像、数据集和代码集。PAI支持添加文件系统NAS、CPFS或对象存储OSS类型的数据集以及Git代码集。本文介绍提交训练任务前所需的准备工作。
前提条件
如果您使用OSS作为存储系统,请确保已经根据业务需求为DLC授予了OSS访问权限。否则挂载OSS后,进行数据访问时,可能产生I/O错误。关于如何为DLC授予OSS访问权限,请参见云产品依赖与授权:DLC。
使用限制
OSS并非一个真正的文件系统,而是一个分布式对象存储。因此使用OSS作为存储系统时,不支持文件系统的部分功能。例如,挂载OSS后,不支持对已经存在的文件进行追加写和覆盖写。
步骤一:准备资源
提交训练任务前,您需要准备计算资源,用于后续AI训练。以下资源任选其一即可:
步骤二:准备镜像
提交训练任务前,请准备训练环境需要安装的镜像。以下镜像任选其一即可:
官方镜像:针对特定于阿里云服务的优化和集成,PAI提供了基于不同框架的官方镜像。此类镜像适合在阿里云平台上进行训练任务,能够获得更好的兼容性和性能。前往PAI控制台的AI资产管理镜像页面,在镜像页面的PAI官方镜像页签中,您可以通过筛选使用子产品为DLC,来查看支持提交DLC任务的镜像列表详细信息。
自定义镜像:如果您的训练任务需要特殊的环境或依赖,可选择使用您添加到PAI的自定义镜像,在选择前,您需要先将自定义镜像添加到PAI中。为了方便管理和使用,建议您在工作空间的自定义镜像。
页面中,将该镜像添加为PAI的AI资产,便于多个训练任务直接选择使用。操作详情请参见重要使用灵骏智算资源提交训练任务时,如果选择使用自定义镜像提交训练任务,则相关注意事项,请参见RDMA:使用高性能网络进行分布式训练。
镜像地址:提交训练任务时,支持填写您的自定义镜像或官方镜像地址。您可以前往PAI控制台的AI资产管理镜像页面,查看镜像地址。
步骤三:准备数据集
提交训练任务前,您可以将训练任务所需的数据上传至对象存储OSS、文件存储NAS或文件存储CPFS后,并将其创建为训练任务可直接使用的自定义数据集。您也可以直接挂载对象存储(OSS)数据或公共数据集。以下内容为您介绍如何准备自定义数据集:
支持的数据集类型
支持对象存储(OSS)、文件存储(通用型NAS)、文件存储(极速型NAS)、文件存储(CPFS)和文件存储(智算CPFS)类型的数据集。除文件存储(智算CPFS)类型外,其他类型的数据集均支持开启数据集加速功能。后续提交分布式训练任务时,可直接使用已开启加速的数据集,提升数据读取效率。
创建数据集
操作入口及相关参数的配置详情请参见创建及管理数据集。准备数据集时,有以下注意事项:
创建用于训练任务的数据集时,仅支持从阿里云云产品这种类型的数据集,且属性必须为文件夹。
由于OSS与NAS不同,并非一个真正的文件系统,而是一个分布式对象存储。因此使用OSS作为存储系统时,不支持文件系统的部分功能。例如,挂载OSS后,不支持对已经存在的文件追加写和覆盖写。
如果创建的数据集类型为文件存储(CPFS),则在提交训练任务时,需要配置专有网络,并选择与CPFS一致的专有网络。否则,提交的DLC训练任务会运行异常,任务可能长时间处于环境准备中状态。
开启数据集加速功能
您可以开启数据集加速功能,在提交训练任务时,可以直接使用已开启加速的数据集,提升数据读取效率。详情请参见在PAI平台使用数据集加速器。
步骤四:准备代码集
提交训练任务前,您需将训练任务可能需要使用的代码添加为代码集。为了方便管理和使用,建议您在工作空间的代码配置。
页面中,将该代码添加为PAI的AI资产,便于多个训练任务直接选择使用。操作详情请参见相关文档
完成准备工作后,您可以创建训练任务,详情请参见创建训练任务。