实验管理提供了通过TensorBoard可视化对比任务指标的功能,本文为您介绍如何在Model Gallery的微调训练任务中使用实验管理。
前提条件
如您需要使用TensorBoard进行指标可视化,则需要创建OSS Bucket存储空间,具体操作请参见控制台创建存储空间。
使用费用
实验管理本身并不收费,但使用Model Gallery进行模型训练并把训练任务关联到实验时,需要收取DLC训练费用和OSS存储费用,计费详情请参见分布式训练(DLC)计费说明和OSS计费概述。
使用TensorBoard进行指标可视化时,当前PAI平台允许免费启动最多5个Tensorboard实例,超过部分将需要付费。
关联训练任务到实验
您可以在Model Gallery创建模型微调训练任务时将任务关联至一个新的或已有的实验中,具体操作步骤如下:
在模型详情页面,单击训练。
在微调训练详情页面实验配置区域中,进行关联实验配置。
当您第一次使用实验管理或需要将任务关联至一个新的实验时,选择新建实验,设置实验名称及实验输出路径。
说明关联到实验的所有任务的输出数据路径,如模型、TensorBoard Log等,都将使用实验输出路径作为默认路径。
如果您需要自定义任务输出路径,可以在训练输出配置中具体配置。但如果您修改了默认的TensorBoard路径,会导致该任务无法在实验的TensorBoard中与其他任务的指标进行可视化对比,因此建议您使用默认路径。
您也可以选择将任务关联至已有实验。
微调训练任务的其他参数配置请参见模型部署及训练。
单击训练。
页面自动跳转到任务详情页面。您可以查看到该任务关联的实验名称,任务的超参数等元数据。
查看实验及打开TensorBoard
关联到同一个实验的训练任务之间可以在实验的Tensorboard实例中进行train_loss
、total_flos
等训练指标的可视化对比,具体步骤如下:
在Model Gallery首页,单击任务管理。
在任务管理页面查看所有实验,选择您需要进行任务指标对比的实验,点击操作列的Tensorboard。
会自动打开一个Tensorboard实例。
当Tensorboard状态变为运行中,点击前往查看,会自动打开并跳转至一个新的标签页。
您可以在该页面中查看到关联到实验的所有训练任务的指标,不同模型记录的训练任务指标可能会有所不同
在TensorBoard中对比任务指标
您可以通过选择Horizontal Axis下的不同选项切换直角坐标系的横坐标。
STEP:模型训练的步数。
RELATIVE:相对时间,例如训练开始后的0.5小时,以小时为单位。
WALL:绝对时间,例如2024年4月2日上午十点,以小时为单位。
常见的指标:
loss:损失,指的是模型预测结果与真实结果之间的差异。
accuracy/precision/recall: 精度指标。
也可以通过勾选/取消勾选任务ID前的复选框,选择要进行指标对比的任务。
当几个任务在某个指标的值比较相近时,可以点击直角坐标系下方中间的按钮,指标值将自动聚焦在数据差异较大的部分。
也可以点击最左侧按钮,查看大图。