查看训练详情

更新时间:
复制 MD 格式

成功提交训练任务后,您可以通过查看任务基本信息与配置、任务事件、资源视图以及任务日志等内容来全面了解任务的运行情况。您可以通过任务名称或ID搜索,快速在运行中与历史实例之间进行切换。

查看任务基本信息及配置

  1. 登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入DLC

  2. 单击目标任务名称,进入任务概览页面。

  3. 概览页面,您可以查看该任务的基本信息、环境信息和资源信息等。

    概览页面顶部展示任务运行状态(如已成功)、已运行时长、计算类型(如通用计算)、任务类型(如PyTorchJob)和资源组,以及从任务创建、环境准备、任务运行到任务成功各阶段的时间轴。基本信息包括任务名称、任务ID和标签;资源信息包括资源类型、Worker数量及实例规格(如ecs.gn7i-c8g1.2xlarge);环境信息包括节点镜像地址、数据集挂载配置和执行命令。此外还包含容错与诊断(自动容错、健康检测开关)、网络信息(专有网络、安全组、交换机等)和角色与权限(实例RAM角色、可见范围)等配置区块。

  4. 单击页面顶部的任务名称,可展开任务切换列表。列表支持按名称或ID模糊搜索,帮助您快速在运行中与历史实例之间进行切换。

查看任务事件

事件日志记录了任务调度和资源相关的进度日志,您可以通过查看任务事件来定位和排查问题。

  • 切换到事件页签,查看任务事件日志。

    事件页签左侧为事件时间轴,展示开始创建、环境准备、开始运行、任务成功等阶段节点及对应时间范围;右侧为事件日志面板,记录 Job 排队、出队、Pod 创建、Service 创建、调度成功、运行中、成功完成等 PyTorchJob 生命周期事件详情。

  • 概览页面下方的实例区域,单击实例操作列下的日志,在系统日志页签查看具体的节点事件日志。

    系统日志中记录了 Pod 完整的生命周期事件,包括状态变更(ResourcePurchasing → NetworkInitializing → Initializing → ImagePulling → WaitingForRun → Running → Succeeded)、镜像拉取记录及容器创建与启动等节点事件。

查看资源视图

目前资源视图支持查看的主要指标包括GPU使用量、GPU Memory使用量、CPU使用量、Memory使用量以及Network I/O等。您可以通过查看资源视图实时监控任务的资源使用情况,从而全面了解任务对不同资源的需求程度,监控资源的利用率和消耗情况,方便进行资源优化和规划。

您可以切换到监控页签,查看任务资源视图。

对于使用资源配额创建的训练任务还支持以下监控功能:

  1. 支持作业维度POD维度GPU维度的监控指标展示。

    监控页面上方展示任务生命周期时间线,依次包含任务创建排队环境准备任务运行任务成功等阶段及各阶段耗时;下方可通过任务维度POD 维度GPU 维度Tab 切换查看对应监控指标,GPU 维度下展示 GPU 算力使用率和显存使用率折线图。

  2. 支持交互功能,包括时间筛选、指标筛选、指标分类。点击更多可以自行配置指标视图并给指标进行排序(DLC任务监控视图支持指标自定义展示与排序能力,实现监控视图的个性化构建。用户可基于业务需求,自主勾选关键性能指标,并通过拖拽排序调整指标展示优先级,精准聚焦核心监控,实现个性化指标对比)。

    可选的GPU监控指标包括GPU算力使用率GPU显存总量GPU显存使用率GPU显存使用量GPU显存设备接口使用率GPU显存带宽使用量GPU SM设备使用率GPU设备功耗GPU温度等。勾选所需指标后,在右侧指标排序区域通过拖拽调整展示顺序,单击确定完成配置。

  3. DLC任务还支持监控报警功能,实时监控DLC任务的资源水位,具体操作,请参见训练监控与报警

查看任务日志

当任务运行异常或需要查看任务执行的历史记录时,您可以通过以下两种方法查看任务日志:

  • 概览页面下方的实例区域,单击实例操作列下的日志,查看某个节点的输出日志。

  • 切换到日志页签,通过关键词搜索相关日志事件。具体操作,请参见通过关键词查询聚合日志。查询语法的简要tips:

    - 普通查询: error , 匹配含 error 的日志
    - 多词查询: "Unexpected result" , 同时匹配两个词 Uncexpected 和 error
    - 模糊查询: error* , 匹配以 error 开头的单词;不支持特殊字符
    - 短语查询: #"abc$def" , 匹配完整短语 abc$def
    分隔符:日志按分隔符切分,关键词中的分隔符会被视为空字符;如包含分隔符,请改用短语查询。常见分隔符: \n\t\r,;[]{}()&^*#@~=<>/\?:'"

    日志页面左侧展示实例列表,右侧展示对应实例的用户日志。示例中,训练日志显示 Epoch 16 至 Epoch 18 的验证结果,最终输出 Model saved with accuracy: 98.96%,表明模型训练已成功完成。

查看行为事件日志

PAI已集成至操作审计(ActionTrail)中,您可以在ActionTrail中查看和检索阿里云账号最近90天的DLC行为事件日志。具体操作,请参见操作审计

查看任务重启记录

若创建任务时已开启自动容错健康检测(拉黑重跑)功能,您可通过单击重启次数跳转至重启记录页面,查看相关重启信息,包括重启次数、重启时间、重启原因、重启结果、重启耗时等。具体操作如下:

  • 在重启记录列表中,单击错误详情可查看该次重启的详细信息,包括重启次数、重启时间、节点名称、实例名称、错误码、错误信息、错误来源。

  • 单击查看聚合错误详情可展开全部重启记录的详情列表。

相关文档

您可以根据任务的运行情况,进行相应的管理操作,详情请参见管理训练任务