文档

实验管理

更新时间:

实验管理提供了通过TensorBoard可视化对比任务指标的功能,本文为您介绍如何在快速开始的微调训练任务中使用实验管理。

前提条件

如您需要使用TensorBoard进行指标可视化,则需要创建OSS Bucket存储空间,具体操作请参见控制台创建存储空间

使用费用

实验管理本身并不收费,但使用快速开始进行模型训练并把训练任务关联到实验时,需要收取DLC训练费用和OSS存储费用,计费详情请参见通用计算资源(DSW/DLC)计费说明OSS计费概述

关联训练任务到实验

您可以在快速开始创建模型微调训练任务时将任务关联至一个新的或已有的实验中,具体操作步骤如下:

  1. 在模型详情页面,单击微调训练

    image

  2. 在微调训练详情页面实验配置区域中,进行关联实验配置。

    1. 当您第一次使用实验管理或需要将任务关联至一个新的实验时,选择新建实验,设置实验名称实验输出路径

      说明

      关联到实验的所有任务的输出数据路径,如模型、TensorBoard Log等,都将使用实验输出路径作为默认路径。

      如果您需要自定义任务输出路径,可以在训练输出配置中具体配置。但如果您修改了默认的TensorBoard路径,会导致该任务无法在实验的TensorBoard中与其他任务的指标进行可视化对比,因此建议您使用默认路径。

      image

    2. 您也可以选择将任务关联至已有实验

      image

  3. 微调训练任务的其他参数配置请参见模型部署及训练

  4. 单击训练

    页面自动跳转到任务详情页面。您可以查看到该任务关联的实验名称,任务的超参数等元数据。

查看实验及打开TensorBoard

关联到同一个实验的训练任务之间可以在实验的Tensorboard实例中进行train_losstotal_flos等训练指标的可视化对比,具体步骤如下:

  1. 在快速开始首页,单击任务管理

    image

  2. 任务管理页面查看所有实验,选择您需要进行任务指标对比的实验,点击Tensorboard

    image

    会自动打开一个Tensorboard实例。

    image

  3. 当Tensorboard状态变为运行中,点击前往查看,会自动打开并跳转至一个新的标签页。

    image您可以在该页面中查看到关联到实验的所有训练任务的指标,不同模型记录的训练任务指标可能会有所不同

在TensorBoard中对比任务指标

  1. 您可以通过选择Horizontal Axis下的不同选项切换直角坐标系的横坐标。

    • STEP:模型训练的步数。

    • RELATIVE:相对时间,例如训练开始后的0.5小时,以小时为单位。

    • WALL:绝对时间,例如2024年4月2日上午十点,以小时为单位。

    常见的指标:

    • loss:损失,指的是模型预测结果与真实结果之间的差异。

    • accuracy/precision/recall: 精度指标。

  2. 也可以通过勾选/取消勾选任务ID前的复选框,选择要进行指标对比的任务。

  3. 当几个任务在某个指标的值比较相近时,可以点击直角坐标系下方中间的按钮,指标值将自动聚焦在数据差异较大的部分。

  4. 也可以点击最左侧按钮,查看大图。

    image

    image