通用流程

更新时间: 2023-11-01 14:59:19

如果您需要进行大规模的AI训练、需要使用更高性能的计算资源,您可以使用灵骏智算资源创建并提交DLC训练任务,本文为您介绍基于灵骏智算资源的训练任务提交通用流程。

前提条件

已新建灵骏智算资源组,并购买灵骏智算资源。操作详情请参见新建与管理灵骏智算资源

准备工作:准备数据集

使用灵骏智算资源提交DLC任务时,支持使用OSS、NAS、智算CPFS类型的数据集,以下以智算CPFS类型的数据集为例为您介绍准备数据集的操作流程。

说明

如果您的训练任务对数据读取有很高的读写速度与性能要求,建议您使用智算CPFS数据集。

  1. 购买智算CPFS资源。

    登录并进入PAI控制台的计算资源仪表页面,单击页面右方的新建CPFS,在弹出的新购页面中选择配置容量后,根据界面提示完成付费、下单。

  2. 新建CPFS数据集。

    单击左侧导航中的工作空间列表,单击待提交任务的工作空间名称进入工作空间后,在AI资产管理>数据集页面单击创建数据集,其中:

    • 选择数据存储:请选择为阿里云文件存储(智算CPFS)

    • 选择文件系统:请在下拉框中选择智算CPFS的文件系统(bmcpfs开头的文件系统)。

    其他参数的配置与通用数据集创建一致,详情请参见创建及管理数据集

    说明

    阿里云PAI为您提供了数据集加速能力,如果您希望在使用灵骏智算资源时同时开启数据集加速,可参考典型场景:基于灵骏智算资源的数据集加速文档查看数据集加速的配置要点。

  3. 完成数据集参数配置后单击提交,完成数据集创建。

提交任务

完成数据集创建后,您可以提交训练任务,以下为您介绍提交DLC训练任务的入口和通用流程。

  1. 进入容器训练(DLC)页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 分布式训练(DLC),在分布式训练任务页面中单击新建任务,进入新建任务页面。

  2. 配置任务基本信息与任务资源。其中关键配置参数如下:

    参数

    描述

    资源组

    在下拉框中选择已创建的灵骏智算资源组。

    节点镜像任务类型

    根据实际情况选择镜像与任务类型。

    • 当前仅支持Tensorflow和Pytorch类型的任务。

    • 阿里云PAI为您提供了官方镜像供您使用,同时您也可以使用自定义镜像,为充分利用灵骏智算资源的高性能RDMA网络,使用自定义镜像时需手动安装RDMA,操作详情请参见典型场景:使用自定义镜像

    数据集配置

    选择此前已创建的数据集。

    使用灵骏智算资源组提交训练任务时,只是选择OSS、NAS、智算CPFS类型的数据集。

    其他参数与通用资源组的配置一致,详情请参见提交任务(通过控制台)

  3. 单击提交,提交训练任务。

    对于已提交的任务,您后续也可以直接前往AI资产管理任务页面查看详情,或进行克隆等管理操作。详情请参见创建及管理分布式训练任务

典型场景

以下为常见场景下的任务配置实践,您可单击对应链接查看详细内容。

阿里云首页 人工智能平台 PAI 相关技术圈