实验管理

实验管理提供了通过TensorBoard可视化对比任务指标的功能,本文为您介绍如何在Model Gallery的微调训练任务中使用实验管理。

前提条件

如您需要使用TensorBoard进行指标可视化,则需要创建OSS Bucket存储空间,具体操作请参见控制台创建存储空间

使用费用

  • 实验管理本身并不收费,但使用Model Gallery进行模型训练并把训练任务关联到实验时,需要收取DLC训练费用和OSS存储费用,计费详情请参见分布式训练(DLC)计费说明OSS计费概述

  • 使用TensorBoard进行指标可视化时,当前PAI平台允许免费启动最多5Tensorboard实例,超过部分将需要付费。

关联训练任务到实验

您可以在Model Gallery创建模型微调训练任务时将任务关联至一个新的或已有的实验中,具体操作步骤如下:

  1. 在模型详情页面,单击训练

    image

  2. 在微调训练详情页面实验配置区域中,进行关联实验配置。

    1. 当您第一次使用实验管理或需要将任务关联至一个新的实验时,选择新建实验,设置实验名称实验输出路径

      说明

      关联到实验的所有任务的输出数据路径,如模型、TensorBoard Log等,都将使用实验输出路径作为默认路径。

      如果您需要自定义任务输出路径,可以在训练输出配置中具体配置。但如果您修改了默认的TensorBoard路径,会导致该任务无法在实验的TensorBoard中与其他任务的指标进行可视化对比,因此建议您使用默认路径。

      image

    2. 您也可以选择将任务关联至已有实验

      image

  3. 微调训练任务的其他参数配置请参见模型部署及训练

  4. 单击训练

    页面自动跳转到任务详情页面。您可以查看到该任务关联的实验名称,任务的超参数等元数据。

查看实验及打开TensorBoard

关联到同一个实验的训练任务之间可以在实验的Tensorboard实例中进行train_losstotal_flos等训练指标的可视化对比,具体步骤如下:

  1. Model Gallery首页,单击任务管理

  2. 任务管理页面查看所有实验,选择您需要进行任务指标对比的实验,点击操作列的Tensorboard

    会自动打开一个Tensorboard实例。

    image

  3. Tensorboard状态变为运行中,点击前往查看,会自动打开并跳转至一个新的标签页。

    image您可以在该页面中查看到关联到实验的所有训练任务的指标,不同模型记录的训练任务指标可能会有所不同

TensorBoard中对比任务指标

  1. 您可以通过选择Horizontal Axis下的不同选项切换直角坐标系的横坐标。

    • STEP:模型训练的步数。

    • RELATIVE:相对时间,例如训练开始后的0.5小时,以小时为单位。

    • WALL:绝对时间,例如202442日上午十点,以小时为单位。

    常见的指标:

    • loss:损失,指的是模型预测结果与真实结果之间的差异。

    • accuracy/precision/recall: 精度指标。

  2. 也可以通过勾选/取消勾选任务ID前的复选框,选择要进行指标对比的任务。

  3. 当几个任务在某个指标的值比较相近时,可以点击直角坐标系下方中间的按钮,指标值将自动聚焦在数据差异较大的部分。

  4. 也可以点击最左侧按钮,查看大图。

    image

    image