创建DLC训练任务前,需准备计算资源、镜像、数据集和代码集。PAI支持OSS、NAS、CPFS等多种存储类型。
前提条件
如果您使用OSS作为存储系统,请确保已经根据业务需求为DLC授予了OSS访问权限。否则挂载OSS后,进行数据访问时,可能产生I/O错误。关于如何为DLC授予OSS访问权限,请参见云产品依赖与授权:DLC。
步骤一:准备资源
提交训练任务前,您需要准备计算资源,用于后续AI训练。以下资源任选其一即可:
步骤二:准备镜像
准备训练环境所需的镜像。支持以下选项:
-
官方镜像:PAI提供基于不同框架的官方镜像,针对阿里云服务进行了优化,兼容性和性能更好。前往PAI控制台的AI资产管理镜像页面,在镜像:页面的PAI官方镜像页签中,您可以通过筛选使用子产品为DLC,来查看支持提交DLC任务的镜像列表详细信息。

-
自定义镜像:如果您的训练任务需要特殊的环境或依赖,可选择使用您添加到PAI的自定义镜像,在选择前,您需要先将自定义镜像添加到PAI中。为了方便管理和使用,建议您在工作空间的页面中,将该镜像添加为PAI的AI资产,便于多个训练任务直接选择使用。操作详情请参见自定义镜像。
重要使用灵骏智算资源提交训练任务时,如果选择使用自定义镜像提交训练任务,则相关注意事项,请参见RDMA:使用高性能网络进行分布式训练。
-
镜像地址:提交训练任务时,支持填写您的自定义镜像或官方镜像地址。您可以前往PAI控制台的AI资产管理镜像页面,查看镜像地址。
步骤三:准备数据集
准备训练数据。您可以将数据上传至OSS、NAS或CPFS,并创建为数据集,或直接挂载OSS数据、公共数据集。
支持的数据集类型
支持对象存储(OSS)、文件存储(通用型NAS)、文件存储(极速型NAS)、文件存储(CPFS)和文件存储(智算CPFS)类型的数据集。除文件存储(智算CPFS)类型外,其他类型的数据集均支持开启数据集加速功能。后续提交分布式训练任务时,可直接使用已开启加速的数据集,提升数据读取效率。
创建数据集
操作步骤和参数说明请参见创建及管理数据集。准备数据集时,有以下注意事项:
-
OSS限制:OSS是分布式对象存储,并非真正的文件系统,因此不支持文件系统的部分功能。例如,挂载OSS后,不支持对已存在的文件进行追加写和覆盖写。
-
CPFS专有网络:如果创建的数据集类型为文件存储(CPFS),则在提交训练任务时,需要配置专有网络,并选择与CPFS一致的专有网络。否则,提交的DLC训练任务会运行异常,任务可能长时间处于环境准备中状态。
开启数据集加速功能
您可以开启数据集加速功能,在提交训练任务时,可以直接使用已开启加速的数据集,提升数据读取效率。详情请参见在PAI平台使用数据集加速器。
步骤四:准备代码集
准备训练代码。建议在工作空间的页面中将代码添加为AI资产,便于多个训练任务使用。操作详情请参见代码配置。
后续步骤
完成准备工作后,您可以创建训练任务,详情请参见创建训练任务。