您需要在完成准备工作后创建容器训练任务,本文介绍使用公共资源组集群或专有资源组工作集群时,如何创建PAI-DLC容器训练任务。

前提条件

背景信息

关于创建任务的最佳实践,请参见快速提交单机PyTorch迁移学习任务

操作步骤

  1. 进入创建任务页面。
    1. 登录PAI控制台
    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。
    3. 在工作空间页面的左侧导航栏选择模型开发和训练 > 容器训练(DLC),进入创建任务页面。
  2. 新建任务页面,配置如下训练任务的参数。
    1. 基本信息配置。
      基本信息
      参数描述
      资源类型提交的训练任务支持使用公共资源组或专有资源组
      说明
      • 公共资源组:完成DLC授权后,即为您准备好公共资源组,无需您手动添加资源组等操作。

        目前公共资源组支持运行的资源上限为GPU 2卡、CPU 8核。如果您在训练任务时使用的公共资源超出上限,请联系您的商务经理来提升资源上限。

      • 专有资源组:您需要先创建专有资源组,并为专有资源组购买计算资源,详情请参见准备及管理DLC资源组集群
      优先级资源类型选择专有资源组时,支持配置该参数。

      同时运行的任务执行优先级,取值范围为[1,9],取值为1表示优先级最低。

      节点镜像工作节点的镜像。当前支持选择使用不同类型的镜像:
      • 社区镜像:由社区提供的标准镜像,不同的镜像的详情请参见社区镜像版本详情
      • PAI平台镜像:由阿里云PAI产品提供的多种官方镜像,支持不同的资源类型、Python版本及深度学习框架TensorFlow和PyTorch,镜像列表请参见公共镜像列表
      • 用户自定义镜像:可选择使用您添加到PAI的自定义的镜像,选择前,您需要先将自定义镜像添加到PAI中,操作详情请参见查看并添加镜像
      • 镜像地址:支持配置您的自定义镜像、社区镜像及PAI平台镜像地址。您需要在配置框中配置公网环境下可访问的Docker Registry Image URL。

        如果您配置的是私有镜像地址,您需要单击输入,并配置镜像仓库用户名镜像仓库密码,为私有镜像仓库授权。

      任务类型支持以下类型:
      • Tensorflow
      • PyTorch
      • XGBoost
      • OneFlow
      • ElasticBatch
      数据集配置指定任务运行过程中,任务数据的存储位置。

      如果您提交的训练任务需要更大的存储空间,可以配置数据集。

      此处需配置为前期已准备好的数据集,数据集配置方式请参见(可选)准备数据集

      代码配置指定任务代码文件的存储位置(代码仓库信息)。此处需配置为此前已准备好的代码配置,配置方式请参见(可选)准备代码集
      说明 由于PAI-DLC会将代码下载至指定工作路径,所以您需要有代码仓库的访问权限。
      执行命令本任务需要执行的命令。支持Shell命令,例如,使用python -c "print('Hello World')"运行Python。
      三方库配置支持以下两种方式配置第三方库:
      • 三方库列表:直接在下方文本框中输入三方库。
      • requirements.txt文件目录:将第三方库写入requirements.txt文件中,在下方文本框中指定该requirements.txt文件的路径。
      容错监控打开容错监控开关,系统提供作业检测和控制能力,可以及时检测出训练任务算法层面的报错,从而规避错误,提升GPU利用率。比如:额外参数配置为--enable-job-hang-detection=true --job-hang-interval=3600表示开启log hang检测,配置检测时长为3600秒。
      说明 目前,马来西亚(吉隆坡)地域不支持容错监控功能。
      专有网络配置资源类型选择公共资源组时,支持配置该参数。

      选择当前地域可用的专有网络,并选择对应的交换机与安全组。

      配置完成后,任务运行的集群将能够直接访问此专有网络内的服务,并使用此处选择的安全组进行安全访问限制。

      说明 当前运行PAI-DLC任务时,需保障任务资源组实例、数据集存储(OSS)在同一地域的VPC网络环境中,且与代码仓库的网络是连通状态。
    2. 任务资源配置。
      任务资源配置时,可选择使用标准模式进阶模式
      • 标准模式:默认用标准模式,此模式下创建的节点Worker类型的节点。
      • 进阶模式:选择进阶模式后,您可以选择添加更多类型的节点,包括Worker节点、PS节点、Chief节点、Evaluator节点、GraphLearn节点。
      资源类型选择公共资源组时,各类节点的配置参数一致,均包含节点数量、节点配置等配置项。资源配置
      参数描述
      节点数量当前镜像和规格的节点数量。
      节点配置计算节点的规格,详细的规格列表和费用请参见PAI-DLC计费说明
      使用竞价实例如果您需要使用阿里云的竞价实例,请联系您的商务经理来处理。

      运行时间比较短的计算任务、可中断和继续训练的计算任务等,对运行时长和连续性要求不高的任务,建议选择使用竞价实例,可大大节约资源成本。

      使用竞价实例低成本运行任务的实践请参见低成本运行任务:使用竞价实例(抢占实例)

      说明
      • 竞价实例(抢占式实例)是一种按需实例,相对于按量付费实例,价格有一定的折扣,可为您节约资源成本,详细介绍请参见抢占式实例概述
      • 阿里云竞价实例的出价模式有使用自动出价设置您的最高价两种,使用竞价实例运行DLC任务时,使用自动出价这种出价模式,即以实时的市场价格作为实例规格的计费价格。
      资源类型选择专有资源组时,各类节点的配置参数一致,均包含节点数量CPU(核数)内存(GB)等配置项。资源配置
    3. 最长运行时长配置。
      设置任务运行的最长时长,配置完成后,后续任务运行超过最长时长后即返回任务运行停止。
  3. 单击提交
    当界面提示提交成功后,即开始创建运行任务。您可以单击查看详情或返回任务列表,查看当前任务的状态。

    对于已提交的任务,您后续也可以直接前往AI资产管理 > 任务页面查看详情,或进行克隆等管理操作。详情请参见创建及管理容器训练任务

典型场景

以下为常见场景下的任务配置实践,您可单击对应链接查看详细内容。

后续步骤

提交运行任务后,您可关注任务运行状态,也可在任务运行后查看任务运行的账单明细,账单明细查看请参见账单明细