成功提交训练任务后,您可以通过查看任务基本信息与配置、任务事件、资源视图以及任务日志等内容来全面了解任务的运行情况。
查看任务基本信息及配置
登录PAI控制台,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入DLC。
单击目标任务名称,进入任务概览页面。
在概览页面,您可以查看该任务的基本信息、环境信息和资源信息等。
查看任务事件
事件日志中记录了任务调度以及资源相关的进度日志,您可以通过查看任务事件来定位和排查问题。
查看作业事件日志:
切换到事件页签,查看作业事件日志。
查看节点事件日志:
在概览页面下方的实例区域,单击实例操作列下的日志,在事件页签查看具体的节点事件日志。
查看资源视图
目前资源视图支持查看的主要指标包括GPU使用量、GPU Memory使用量、CPU使用量、Memory使用量以及Network I/O等。您可以通过查看资源视图实时监控任务使用的各种资源,从而全面了解任务对不同资源的需求程度,监控资源的利用率和消耗情况,方便您进行资源优化和规划。
您可以切换到监控页签,在该页签中查看任务资源视图。
目前支持作业维度、POD维度及GPU维度的监控指标展示。您可以通过监控报警功能,对DLC任务的资源水位进行实时监控,具体操作,请参见训练监控与报警。
查看任务日志
当任务运行异常或需要查看任务执行的历史记录时,您可以通过查看任务日志,了解任务执行过程中的关键信息。支持以下两种查看方法:
在概览页面下方的实例区域,单击实例操作列下的日志,查看某个节点的输出日志。
切换到日志页签,通过关键词进行相关日志事件的搜索。具体操作,请参见通过关键词查询聚合日志。
查看行为事件日志
PAI已集成至操作审计(ActionTrail)中,您可以在ActionTrail中查看和检索阿里云账号最近90天的DLC行为事件日志。具体操作,请参见操作审计。
相关文档
您可以根据任务的运行情况,进行相应的管理操作,详情请参见管理训练任务。