PAI-DLC在ACK集群里部署了PAI-DLC Dashboard, 您可以通过可视化的方式管理深度学习任务。

前提条件

添加ACK集群,详情请参见添加ACK集群

背景信息

目前,PAI-DLC Dashboard仅支持管理官方公共镜像的TensorFlow类型任务,管理其他类型的任务需要通过Arena方式,详情请参见Arena官方文档

提交任务

  1. 进入PAI-DLC Dashboard页面。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > DLC-云原生深度学习训练平台
    3. 在PAI-DLC管理控制台页面,单击操作下的集群控制台
  2. PAI-DLC Dashboard页面的左侧导航栏,单击提交任务
  3. 提交任务页面,配置必选参数。
    区域 参数 描述
    基本信息 任务名称 深度学习训练的任务名称。长度为2~30个字符,以小写字母开头。
    任务类型 系统默认TensorFlow,不支持修改。
    任务信息 代码配置 根据代码存储位置进行配置:
    • 如果代码存储在仓库,则选中代码仓库,并配置仓库地址分支
      说明 由于PAI-DLC会将代码下载至工作路径/workspace,所以您需要有代码仓库的访问权限。
    • 如果代码存储在ACK集群挂载的存储卷,则选中云存储挂载。同时,在选择存储卷声明列表中,选择ACK集群挂载的存储卷。
    执行命令 支持Python命令,可以将训练数据地址(例如data_dir)作为参数,传入代码入口函数。执行命令
    Worker 实例数量 配置执行任务的实例数量:
    • 如果执行单机任务,可以默认使用Worker
    • 如果执行分布式任务,可以单击Worker后的添加任务类型,选择PS
      说明 PS类型节点不能使用GPU。
    镜像 选择官方公共镜像,且PSWorker的镜像需要保持一致(TensorFlow版本和Python版本需要保持一致,CPU和GPU资源可以不同)。
    资源 配置CPU(核数)内存GPU(卡数)
    说明 GPU(卡数)不能大于ACK集群的GPU卡数。
  4. 可选:提交任务页面,配置可选参数。
    区域 描述
    环境变量 以键值对方式配置的环境变量,可以作为参数在代码中引用。
    存储配置 如果将训练数据存储在ACK集群挂载的存储卷中,您可以将读取数据的逻辑写到代码中。 为了提高代码灵活性,PAI-DLC Dashboard支持在页面绑定ACK集群挂载的存储卷,将训练数据存储地址作为参数,传入任务执行的入口函数。
    说明 ACK集群挂载的存储卷需要在pai-dlc-user namspace下, 否则存储配置列表无法显示该存储卷。
  5. 单击页面下方的提交任务

查询任务

PAI-DLC Dashboard支持按照名称时间区间状态查询任务。

  1. 进入PAI-DLC Dashboard页面。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > DLC-云原生深度学习训练平台
    3. 在PAI-DLC管理控制台页面,单击操作下的集群控制台
  2. PAI-DLC Dashboard页面的左侧导航栏,单击任务查询
  3. 任务查询页面,选择时间区间并单击查询
  4. 任务查询页面的任务列表区域,单击任务名称任务列表
  5. 在任务详情页面,查看任务详细信息。