查看训练详情

成功提交训练任务后,您可以通过查看任务基本信息与配置、任务事件、资源视图以及任务日志等内容来全面了解任务的运行情况。

查看任务基本信息及配置

  1. 进入分布式训练任务页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 分布式训练(DLC)

  2. 单击目标任务名称,进入任务概览页面。

  3. 概览页面,您可以查看该任务的基本信息、环境信息和资源信息等。image

查看任务事件

事件日志中记录了任务调度以及资源相关的进度日志,您可以通过查看任务事件来定位和排查问题。

  • 查看作业事件日志:

    切换到事件页签,查看作业事件日志。image

  • 查看节点事件日志:

    概览页面下方的实例区域,单击实例操作列下的日志,在事件页签查看具体的节点事件日志。image

查看资源视图

目前资源视图支持查看的主要指标包括GPU使用量、GPU Memory使用量、CPU使用量、Memory使用量以及Network I/O等。您可以通过查看资源视图实时监控任务使用的各种资源,从而全面了解任务对不同资源的需求程度,监控资源的利用率和消耗情况,方便您进行资源优化和规划。

您可以切换到监控页签,在该页签中查看任务资源视图。image

目前支持作业维度POD维度GPU维度的监控指标展示。您可以通过监控报警功能,对DLC任务的资源水位进行实时监控,具体操作,请参见监控与报警

查看任务日志

当任务运行异常或需要查看任务执行的历史记录时,您可以通过查看任务日志,了解任务执行过程中的关键信息。支持以下两种查看方法:

  • 概览页面下方的实例区域,单击实例操作列下的日志,查看某个节点的输出日志。image

  • 切换到日志页签,通过关键词进行相关日志事件的搜索。具体操作,请参见通过关键词查询聚合日志image

查看行为事件日志

PAI已集成至操作审计(ActionTrail)中,您可以在ActionTrail中查看和检索阿里云账号最近90天的DLC行为事件日志。具体操作,请参见操作审计

相关文档

您可以根据任务的运行情况,进行相应的管理操作,详情请参见管理训练任务