使用DLC Dashboard管理任务
DLC在ACK集群里部署了DLC Dashboard, 您可以通过可视化的方式管理深度学习任务。
前提条件
准备自运维资源组工作集群,详情请参见准备自运维资源组。
背景信息
目前,DLC Dashboard仅支持管理官方公共镜像的TensorFlow类型任务,管理其他类型的任务需要通过Arena方式,详情请参见Arena官方文档。
提交任务
进入PAI-DLC Dashboard页面。
登录PAI控制台。
在左侧导航栏,选择 ,在资源仪表的通用训练资源页签,单击自运维资源组操作列下的集群控制台,进入PAI-DLC Dashboard页面。
在PAI-DLC Dashboard页面的左侧导航栏,单击提交任务。
在提交任务页面,配置必选参数。
区域
参数
描述
基本信息
任务名称
深度学习训练的任务名称。长度为2~30个字符,以小写字母开头。
任务类型
系统默认TensorFlow,不支持修改。
任务信息
代码配置
根据代码存储位置进行配置:
如果代码存储在仓库,则选中代码仓库,并配置仓库地址和分支。
说明由于DLC会将代码下载至工作路径/workspace,所以您需要有代码仓库的访问权限。
如果代码存储在ACK集群挂载的存储卷,则选中云存储挂载。同时,在选择存储卷声明列表中,选择ACK集群挂载的存储卷。
执行命令
支持Python命令,可以将训练数据地址(例如data_dir)作为参数,传入代码入口函数。
Worker
实例数量
配置执行任务的实例数量:
如果执行单机任务,可以默认使用Worker。
如果执行分布式任务,可以单击Worker后的添加任务类型,选择PS。
说明PS类型节点不能使用GPU。
镜像
选择官方公共镜像,且PS和Worker的镜像需要保持一致(TensorFlow版本和Python版本需要保持一致,CPU和GPU资源可以不同)。
资源
配置CPU(核数)、内存及GPU(卡数)。
说明GPU(卡数)不能大于ACK集群的GPU卡数。
可选:在提交任务页面,配置可选参数。
区域
描述
环境变量
以键值对方式配置的环境变量,可以作为参数在代码中引用。
存储配置
如果将训练数据存储在ACK集群挂载的存储卷中,您可以将读取数据的逻辑写到代码中。 为了提高代码灵活性,DLC Dashboard支持在页面绑定ACK集群挂载的存储卷,将训练数据存储地址作为参数,传入任务执行的入口函数。
说明ACK集群挂载的存储卷需要在
pai-dlc-user namspace
下, 否则存储配置列表无法显示该存储卷。单击页面下方的提交任务。
查询任务
PAI-DLC Dashboard支持按照名称、时间区间及状态查询任务。
进入PAI-DLC Dashboard页面。
登录PAI控制台。
在左侧导航栏,选择 ,在资源仪表的通用训练资源页签,单击自运维资源组操作列下的集群控制台,进入PAI-DLC Dashboard页面。
在PAI-DLC Dashboard页面的左侧导航栏,单击任务查询。
在任务查询页面,选择时间区间并单击查询。
在任务查询页面的任务列表区域,单击任务名称。
在任务详情页面,查看任务详细信息。