使用DLC Dashboard管理任务

更新时间: 2023-11-02 11:36:25

DLC在ACK集群里部署了DLC Dashboard, 您可以通过可视化的方式管理深度学习任务。

前提条件

准备自运维资源组工作集群,详情请参见准备自运维资源组

背景信息

目前,DLC Dashboard仅支持管理官方公共镜像的TensorFlow类型任务,管理其他类型的任务需要通过Arena方式,详情请参见Arena官方文档

提交任务

  1. 进入PAI-DLC Dashboard页面。

    1. 登录PAI控制台

    2. 在左侧导航栏,选择资源和加速 > 计算资源组,在资源仪表的通用训练资源页签,单击自运维资源组操作列下的集群控制台,进入PAI-DLC Dashboard页面。

  2. PAI-DLC Dashboard页面的左侧导航栏,单击提交任务

  3. 提交任务页面,配置必选参数。

    区域

    参数

    描述

    基本信息

    任务名称

    深度学习训练的任务名称。长度为2~30个字符,以小写字母开头。

    任务类型

    系统默认TensorFlow,不支持修改。

    任务信息

    代码配置

    根据代码存储位置进行配置:

    • 如果代码存储在仓库,则选中代码仓库,并配置仓库地址分支

      说明

      由于DLC会将代码下载至工作路径/workspace,所以您需要有代码仓库的访问权限。

    • 如果代码存储在ACK集群挂载的存储卷,则选中云存储挂载。同时,在选择存储卷声明列表中,选择ACK集群挂载的存储卷。

    执行命令

    支持Python命令,可以将训练数据地址(例如data_dir)作为参数,传入代码入口函数。执行命令

    Worker

    实例数量

    配置执行任务的实例数量:

    • 如果执行单机任务,可以默认使用Worker

    • 如果执行分布式任务,可以单击Worker后的添加任务类型,选择PS

      说明

      PS类型节点不能使用GPU。

    镜像

    选择官方公共镜像,且PSWorker的镜像需要保持一致(TensorFlow版本和Python版本需要保持一致,CPU和GPU资源可以不同)。

    资源

    配置CPU(核数)内存GPU(卡数)

    说明

    GPU(卡数)不能大于ACK集群的GPU卡数。

  4. 可选:提交任务页面,配置可选参数。

    区域

    描述

    环境变量

    以键值对方式配置的环境变量,可以作为参数在代码中引用。

    存储配置

    如果将训练数据存储在ACK集群挂载的存储卷中,您可以将读取数据的逻辑写到代码中。 为了提高代码灵活性,DLC Dashboard支持在页面绑定ACK集群挂载的存储卷,将训练数据存储地址作为参数,传入任务执行的入口函数。

    说明

    ACK集群挂载的存储卷需要在pai-dlc-user namspace下, 否则存储配置列表无法显示该存储卷。

  5. 单击页面下方的提交任务

查询任务

PAI-DLC Dashboard支持按照名称时间区间状态查询任务。

  1. 进入PAI-DLC Dashboard页面。

    1. 登录PAI控制台

    2. 在左侧导航栏,选择资源和加速 > 计算资源组,在资源仪表的通用训练资源页签,单击自运维资源组操作列下的集群控制台,进入PAI-DLC Dashboard页面。

  2. PAI-DLC Dashboard页面的左侧导航栏,单击任务查询

  3. 任务查询页面,选择时间区间并单击查询

  4. 任务查询页面的任务列表区域,单击任务名称任务列表

  5. 在任务详情页面,查看任务详细信息。

阿里云首页 人工智能平台 PAI 相关技术圈