提交Tensorflow训练任务和定时任务

本文介绍如何在AI开发控制台提交一个TensorFlow训练任务和定时任务。

前提条件

提交Tensorflow训练任务

  1. 登录开发控制台。具体操作,请参见步骤二:登录开发控制台
  2. 在AI开发控制台的左侧导航栏中,单击提交任务

  3. 基本信息区域:

    • 配置任务名称任务类型(默认值为TF单机)、命名空间执行命令等。

      重要

      命名空间只能选择为集群管理员为您分配的命名空间,其他选项可根据需要配置。

    • 可选:打开Tensorboard开关,可视化查看训练作业。

    • 可选:打开定时任务开关,配置定时任务。

      • 定时策略:标准的Crontab表达式。关于如何使用Crontab表达式,请参见how-use-cron-linux

      • 如果当前训练任务尚未结束,定时任务的并行策略支持以下三种:

        • Allow:允许创建新的训练任务。

        • Forbid:在训练任务结束前,禁止创建新的任务。

        • Replace:创建一个新的训练任务,替换当前未结束的任务。

      • 历史记录数量:集群中会保留该定时任务创建Tensorflow训练任务数量,超过该数量,会自动删除创建时间最早的Tensorflow训练任务。

  4. 任务资源配置区域,配置模型训练的实例数量镜像,以及训练任务需要的CPU(核数)(默认值为4)、内存(GB)(默认值为8 GB)、GPU(卡数)(默认值为0)。

  5. 高级配置区域,配置K8s对象的元数据labelannotationnodeSelection

  6. 单击提交任务

  7. 在AI开发控制台的左侧导航栏中,单击任务列表,查看任务的名称、执行状况等信息。