本文介绍如何在AI开发控制台提交一个TensorFlow训练任务和定时任务。
前提条件
- 创建ACK Pro版集群。
- ACK Pro版集群已安装云原生AI套件的开发控制台和调度组件,且集群Kubernetes版本不低于1.20。
- 集群管理员在RAM控制台创建子账号(即RAM用户),并为该子账号分配和关联配额组。具体操作,请参见步骤一:为用户配置配额组。
已配置训练数据或训练代码。具体操作,请参见配置训练数据和代码。
提交Tensorflow训练任务
- 登录开发控制台。具体操作,请参见步骤二:登录开发控制台。
在AI开发控制台的左侧导航栏中,单击提交任务。
在基本信息区域:
配置任务名称、任务类型(默认值为TF单机)、命名空间、执行命令等。
重要命名空间只能选择为集群管理员为您分配的命名空间,其他选项可根据需要配置。
可选:打开Tensorboard开关,可视化查看训练作业。
可选:打开定时任务开关,配置定时任务。
定时策略:标准的Crontab表达式。关于如何使用Crontab表达式,请参见how-use-cron-linux。
如果当前训练任务尚未结束,定时任务的并行策略支持以下三种:
Allow:允许创建新的训练任务。
Forbid:在训练任务结束前,禁止创建新的任务。
Replace:创建一个新的训练任务,替换当前未结束的任务。
历史记录数量:集群中会保留该定时任务创建Tensorflow训练任务数量,超过该数量,会自动删除创建时间最早的Tensorflow训练任务。
在任务资源配置区域,配置模型训练的实例数量和镜像,以及训练任务需要的CPU(核数)(默认值为4)、内存(GB)(默认值为8 GB)、GPU(卡数)(默认值为0)。
在高级配置区域,配置K8s对象的元数据label、annotation和nodeSelection。
单击提交任务。
在AI开发控制台的左侧导航栏中,单击任务列表,查看任务的名称、执行状况等信息。
文档内容是否对您有帮助?