Tensorboard

您可以为分布式训练(DLC)任务创建Tensorboard实例,通过Tensorboard的可视化界面更直观地查看模型训练结果分析报告。本文为您介绍如何创建和管理Tensorboard实例。

前提条件

已创建DLC任务,且绑定了数据集。具体操作,请参见创建训练任务

使用限制

仅添加数据集配置的DLC任务支持使用Tensorboard查看分析报告。

创建Tensorboard实例

  1. 进入分布式训练任务页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 分布式训练(DLC)

  2. 在目标任务操作列下,单击Tensorboard,在弹出的Tensorboard面板中,单击新建Tensorboardimage

  3. 新建Tensorboard页面中,配置以下参数,然后单击确定

    • 基本信息

      参数

      描述

      Tensorboard名称

      自定义Tensorboard实例名称。

      Tensorboard配置

      支持以下三种配置类型:

      • 按数据集

        • 数据集:选择该工作空间中已创建的数据集。

        • Summary目录:请填写Summary目录在数据集中的相对路径。

      • 按对象存储(OSS)

        • OSS:选择OSS存储路径。

        • Summary目录:请填写Summary目录在OSS存储路径中的相对路径。

      • 按任务

        • DLC任务:选择已创建的DLC任务。

        • Summary目录:请填写Summary目录在任务中的绝对路径。例如,Summary文件在数据集的/tensorboards/summary内,而该数据集在DLC任务中的挂载路径为/mnt/data,则Summary文件在DLC任务中的绝对路径为/mnt/data/tensorboards/summary

      您可以单击添加按钮,为每个Tensorboard挂载多个Summary目录,以便跨多个任务比较各项指标。

    • 资源配置

      支持配置以下几种资源类型:

      资源类型

      描述

      免费资源

      系统为您提供一定额度的免费资源,每个实例支持使用的资源上限为2vCPU,4 GiB内存。

      公共资源

      当免费资源额度不能满足您的需求时,您可以选择使用公共资源来启动Tensorboard实例,计费方式为按量付费,您也可以关闭运行中的免费实例,以继续使用免费额度。

      资源配额

      当免费资源额度不能满足您的需求时,您可以选择使用资源配额(Quota)来创建实例。

      说明

      该功能暂时仅供白名单用户使用。如有需要,请联系您的商务经理添加白名单。

      同时您需要配置以下参数:

      • 资源配额:选择已创建的通用计算资源配额或灵骏智算资源配额,关于如何创建资源配额,请参见新增资源配额。如果没有可选的资源配额,您可以单击关联资源配额,为该工作空间关联资源配额。

      • 优先级:表示同时运行的Tensorboard实例执行的优先级,取值范围为[1,9],其中1表示优先级最低。

      • 任务资源:配置运行Tensorboard实例时使用的资源:CPU(核数)内存(GiB)

    • 专有网络配置

      当使用公共资源创建Tensorboard实例时,支持配置该参数。

      • 不配置专有网络,将使用公网连接。由于公网连接的带宽有限,在Tensorboard实例启动过程或查看报告时,可能会出现卡顿或无法正常进行的情况。

      • 配置专有网络,以确保充足的网络带宽和更稳定的性能。

        选择当前地域可用的专有网络,并选择对应的交换机与安全组。配置完成后,Tensorboard实例运行的集群将能够直接访问此专有网络内的服务,并使用此处选择的安全组进行安全访问限制。

        重要

        如果Tensorboard实例使用了需要配置专有网络的数据集(例如CPFS类型的数据集,或挂载点在专有网络内的NAS类型数据集等),则必须设置专有网络。

  4. 前往Tensorboard页面查看分析报告。

    1. 在工作空间页面的左侧导航栏选择AI资产管理 > 任务

    2. 切换到Tensorboard页签,当目标Tensorboard实例的状态运行中时,单击操作列下的查看Tensorboard

      页面自动跳转到TensorBoard页面。image

管理Tensorboard实例

您可以按照以下操作步骤,对已创建的Tensorboard实例进行管理操作。

  1. 进入任务管理页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择AI资产管理 > 任务,进入任务管理页面。

  2. 管理Tensorboard实例。image

    • 查看Tensorboard实例详情

      Tensorboard页签,单击目标Tensorboard实例名称,进入Tensorboard详情页面。在该页面查看Tensorboard基本信息配置信息

    • 查看关联任务

      表示该Tensorboard实例关联的DLC任务数。在Tensorboard页签,将鼠标悬浮在关联任务列下的图标image上,您可以查看已关联的DLC任务ID,并支持单击跳转到相关任务详情页面。

    • 查看关联数据集

      表示该Tensorboard实例关联的数据集个数。在Tensorboard页签,将鼠标悬浮在关联数据集列下的图标image上,您可以查看已关联的数据集ID,并支持单击跳转到相关数据集详情页面。

    • 查看执行时长

      表示该Tensorboard实例启动成功后的运行时长。停止实例后,该时间将重置。在Tensorboard页签的执行时长列下,您可以查看目标Tensorboard实例的执行时长。

    • 停止Tensorboard实例:

      • 单击目标实例操作列下的停止,直接停止实例。

      • 单击目标实例操作列下的自动停止设置,设置自动停止时间。

相关文档

您也可以在AI资产管理 > 任务页面,为分布式训练(DLC)任务创建Tensorboard实例。具体操作,请参见创建及管理Tensorboard实例