文档

查看训练详情

更新时间:

成功提交训练任务后,您可以通过查看任务基本信息与配置、任务事件、资源视图以及任务日志等内容来全面了解任务的运行情况。

查看任务基本信息及配置

  1. 进入分布式训练任务页面。

    1. 登录PAI控制台

    2. 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。

    3. 在工作空间页面的左侧导航栏选择模型开发与训练 > 分布式训练(DLC)

  2. 单击目标任务操作列下的监控,进入任务详情页面。

  3. 任务详情页面,您可以查看该任务的基本信息和相关配置,包括任务配置和资源配置等。image.png

查看任务事件

事件日志中记录了任务调度以及资源相关的进度日志,您可以通过查看任务事件来定位和排查问题。

  • 查看作业事件日志:

    任务详情页面下方的事件页签,查看作业事件日志。image.png

  • 查看节点事件日志:

    任务详情页面下方的实例页签,单击实例操作列下的日志,在事件页签查看具体的节点事件日志。image.png

查看资源视图

目前资源视图支持查看的主要指标包括GPU使用量、GPU Memory使用量、CPU使用量、Memory使用量以及Network I/O等。您可以通过查看资源视图实时监控任务使用的各种资源,从而全面了解任务对不同资源的需求程度,监控资源的利用率和消耗情况,方便您进行资源优化和规划。

您可以在任务详情页面下方,单击资源视图页签,在该页签中查看任务资源视图。image.png

资源视图页面右上角单击体验新版,页面会自动切换到新版本的资源视图页面,目前支持作业维度POD维度GPU维度的监控指标展示。您可以通过监控报警功能,对DLC任务的资源水位进行实时监控,具体操作,请参见监控与报警

查看任务日志

当任务运行异常或需要查看任务执行的历史记录时,您可以通过查看任务日志,了解任务执行过程中的关键信息。支持以下两种查看方法:

  • 任务详情页面下方的实例页签,单击实例操作列下的日志,查看某个节点的输出日志。image.png

  • 任务详情页面下方的聚合日志页签,通过关键词进行相关日志事件的搜索。具体操作,请参见通过关键词查询聚合日志

查看行为事件日志

PAI已集成至操作审计(ActionTrail)中,您可以在ActionTrail中查看和检索阿里云账号最近90天的DLC行为事件日志。具体操作,请参见操作审计

相关文档

您可以根据任务的运行情况,进行相应的管理操作,详情请参见管理训练任务

  • 本页导读 (1)