运行PAI-DLC深度学习训练任务时,您需要在完成准备工作后在PAI-DLC页面创建任务,本文介绍使用公共资源组工作集群时,如何创建深度学习任务。

背景信息

关于创建任务的最佳实践,请参见快速提交单机PyTorch迁移学习任务

操作步骤

  1. 进入PAI-DLC Dashboard。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > 云原生深度学习训练(DLC)
    3. 在PAI-DLC管理控制台页面,找到类型公共资源组的工作集群,单击操作列下的集群控制台
  2. 在左侧导航栏,单击任务列表进入任务列表页面,然后单击新建任务
  3. 新建任务页面,配置如下参数。
    1. 基本信息配置。
      基本信息
      参数 描述
      任务名称 深度学习训练的任务名称。长度为2~30个字符,以小写字母开头。
      节点镜像 工作节点的镜像。当前支持选择使用不同类型的镜像:
      • 社区镜像:由社区提供的标准镜像,不同的镜像的详情请参见社区镜像版本详情
      • PAI平台镜像:由阿里云PAI产品提供的多种官方镜像,支持不同的资源类型、Python版本及深度学习框架TensorFlow和PyTorch,镜像列表请参见公共镜像列表
      • 自定义镜像:可选择使用您自定义的镜像,选择自定义镜像后,您需要在配置框中配置公网环境下可访问的Docker Registry Image URL。
      任务类型 支持以下类型:
      • Tensorflow
      • Pytorch
      数据集配置 指定任务运行过程中,任务数据的存储位置。此处需配置为前期已准备好的数据集,数据集配置方式请参见新建数据集配置
      代码配置 指定任务代码文件的存储位置(代码仓库信息)。此处需配置为此前已准备好的代码配置,配置方式请参见新建代码配置
      说明 由于PAI-DLC会将代码下载至指定工作路径,所以您需要有代码仓库的访问权限。
      执行命令 本任务需要执行的命令。支持任意Shell命令,例如,使用python -c "print('Hello World')"运行Python。
      三方库配置 支持以下两种方式配置第三方库:
      • 三方库列表:直接在下方文本框中输入三方库。
      • requirements.txt文件目录:将第三方库写入requirements.txt文件中,在下方文本框中指定该requirements.txt文件的路径。
      专有网络配置 选择当前地域可用的专有网络,并选择对应的交换机与安全组。

      配置完成后,后续任务运行的集群将处于此网络环境中,并使用此处选择的安全组进行安全访问限制。

      说明 当前运行DLC任务时,需保障任务资源组实例、数据集存储(OSS)在同一地域的VPC网络环境中,且与代码仓库的网络时连通状态。
    2. 任务资源配置。
      任务资源配置时,可在右上角选择使用标准模式进阶模式
      • 标准模式:默认用标准模式,此模式下创建的节点Worker类型的节点。
      • 进阶模式:选择进阶模式后,您可以选择添加更多类型的节点,包括Worker节点、PS节点、Chief节点、Evaluator节点、GraphLearn节点。
      各类节点的配置参数一致,均包含节点数量、节点配置、使用竞价实例三个配置项。资源配置
      参数 描述
      节点数量 当前镜像和规格的节点数量。
      节点配置 计算节点的规格,详细的规格列表和费用请参见PAI-DLC计费说明
      使用竞价实例 选择是否使用阿里云的竞价实例。

      运行时间比较短的计算任务、可中断和继续训练的计算任务等,对运行时长和连续性要求不高的任务,建议选择使用竞价实例,可大大节约资源成本。

      使用竞价实例低成本运行任务的实践请参见低成本运行任务:使用竞价实例(抢占实例)

      说明
      • 竞价实例(抢占式实例)是一种按需实例,相对于按量付费实例,价格有一定的折扣,可为您节约资源成本,详细介绍请参见抢占式实例概述
      • 阿里云竞价实例的出价模式有使用自动出价设置您的最高价两种,使用竞价实例运行DLC任务时,使用使用自动出价这种出价模式,即以实时的市场价格作为实例规格的计费价格。
    3. 最长运行时长配置。
      设置任务运行的最长时长,配置完成后,后续任务运行超过最长时长后即返回任务运行停止。
  4. 单击提交任务
    提交后,即开始创建运行任务。您可以单击查看详情或返回任务列表,查看当前任务的状态。任务状态

典型场景

以下为常见场景下的任务配置实践,您可单击对应链接查看详细内容。

后续步骤

提交运行任务后,您可关注任务运行状态,也可在任务运行后查看任务运行的账单明细,账单明细查看请参见账单明细