本文介绍使用公共资源组工作集群时,如何创建深度学习任务。

背景信息

关于创建任务的最佳实践,请参见快速提交单机PyTorch迁移学习任务

操作步骤

  1. 进入PAI-DLC Dashboard。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > 云原生深度学习训练(DLC)
    3. 在PAI-DLC管理控制台页面,找到类型公共资源组的工作集群,单击操作列下的集群控制台
  2. 在左侧导航栏,单击提交任务
  3. 提交任务页面,配置如下参数。
    区域 参数 描述
    基本信息 任务名称 深度学习训练的任务名称。长度为2~30个字符,以小写字母开头。
    任务类型 支持以下类型:
    • TF-单机
    • TF-分布式
    • Pytorch单机
    • Pytorch分布式
    数据配置 根据数据存储位置进行配置,数据配置方式请参见数据配置
    代码配置 根据代码存储位置进行配置。您可以通过数据配置功能,配置对应的地址和信息。
    说明 由于PAI-DLC会将代码下载至指定工作路径,所以您需要有代码仓库的访问权限。
    工作目录 默认为/root路径,且不支持修改。
    执行命令 支持任意Shell命令。例如,使用python -c "print('Hello World')"运行Python。
    三方库配置 支持以下两种方式配置第三方库:
    • 三方库列表:直接在下方文本框中输入三方库。
    • requirements.txt文件目录:将第三方库写入requirements.txt文件中,在下方文本框中指定该requirements.txt文件的路径。
    任务资源配置 Worker节点配置 节点镜像 工作节点的镜像,支持以下类型的镜像:
    • 官网镜像官网镜像列表请参见公共镜像列表
    • 自定义镜像需要配置公共可访问的Docker Registry Image URL。
    TF-分布式任务中的PS和Worker的镜像必须保持一致(TensorFlow版本和Python版本必须一致,CPU和GPU资源可以不同)。
    节点配置 计算节点的规格,详细的规格列表和费用请参见PAI-DLC计费说明
    节点数量 当前镜像和规格的节点数量。
  4. 单击提交任务