运行PAI-DLC容器训练任务时,您需要在完成准备工作后创建训练提交任务,本文介绍使用公共资源组或专有资源组工作集群时,如何创建PAI-DLC容器训练任务。
背景信息
关于创建任务的最佳实践,请参见快速提交单机PyTorch迁移学习任务。
操作步骤
- 进入创建任务页面。
- 登录PAI控制台。
- 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
- 在工作空间页面的左侧导航栏选择模型开发和训练 > 容器训练(DLC),进入创建任务页面。
- 在创建任务页面,配置如下训练任务的参数。
- 基本信息配置。
参数 描述 资源类型 提交的训练任务支持使用公共资源组或专有资源组。 说明- 公共资源组:完成DLC授权后,即为您准备好公共资源组,无需您手动添加资源组等操作。
- 专有资源组:您需要先创建专有资源组,并为专有资源组购买计算资源,详情请参见准备及管理DLC资源组集群。
优先级 当资源类型选择专有资源组时,支持配置该参数。 同时运行的任务执行优先级,取值范围为[1,9],取值为1表示优先级最低。
节点镜像 工作节点的镜像。当前支持选择使用不同类型的镜像: 任务类型 支持以下类型: - Tensorflow
- Pytorch
- XGBoost
数据集配置 指定任务运行过程中,任务数据的存储位置。此处需配置为前期已准备好的数据集,数据集配置方式请参见(可选)准备数据集。 代码配置 指定任务代码文件的存储位置(代码仓库信息)。此处需配置为此前已准备好的代码配置,配置方式请参见(可选)准备代码集。 说明 由于PAI-DLC会将代码下载至指定工作路径,所以您需要有代码仓库的访问权限。执行命令 本任务需要执行的命令。支持Shell命令,例如,使用 python -c "print('Hello World')"
运行Python。三方库配置 支持以下两种方式配置第三方库: - 三方库列表:直接在下方文本框中输入三方库。
- requirements.txt文件目录:将第三方库写入requirements.txt文件中,在下方文本框中指定该requirements.txt文件的路径。
容错监控 当资源类型选择专有资源组时,支持配置该参数。 打开容错监控开关,系统提供作业检测和控制能力,可以及时检测出训练任务算法层面的报错,从而规避错误,提升GPU利用率。比如:额外参数配置为--enable-log-hang-detection=true --log-hang-interval-in-seconds=3600表示开启log hang检测,配置检测时长为3600秒。
专有网络配置 当资源类型选择公共资源组时,支持配置该参数。 选择当前地域可用的专有网络,并选择对应的交换机与安全组。
配置完成后,任务运行的集群将能够直接访问此专有网络内的服务,并使用此处选择的安全组进行安全访问限制。
说明 当前运行PAI-DLC任务时,需保障任务资源组实例、数据集存储(OSS)在同一地域的VPC网络环境中,且与代码仓库的网络是连通状态。 - 任务资源配置。任务资源配置时,可在右上角选择使用标准模式或进阶模式。
- 标准模式:默认用标准模式,此模式下创建的节点Worker类型的节点。
- 进阶模式:选择进阶模式后,您可以选择添加更多类型的节点,包括Worker节点、PS节点、Chief节点、Evaluator节点、GraphLearn节点。
参数 描述 节点数量 当前镜像和规格的节点数量。 节点配置 计算节点的规格,详细的规格列表和费用请参见PAI-DLC计费说明。 - 最长运行时长配置。设置任务运行的最长时长,配置完成后,后续任务运行超过最长时长后即返回任务运行停止。
- 基本信息配置。
- 单击提交。当界面提示提交成功后,即开始创建运行任务。您可以单击查看详情或返回任务列表,查看当前任务的状态。
对于已提交的任务,您后续也可以直接前往AI资产管理 > 任务页面查看详情,或进行克隆等管理操作。详情请参见创建及管理任务。
典型场景
以下为常见场景下的任务配置实践,您可单击对应链接查看详细内容。