在作业启动或者运行异常时,您可以查看运行异常日志。本文为您介绍如何查看Job Manager异常、失效Task Managers日志和慢Checkpoint对应的Task Managers日志。

背景信息

类型 详情
Job Manager异常 如果作业出现Failover,导致作业运行失败,则需要查看Job Manager异常。关于如何查看Job Manager异常的详情,请参见查看Job Manager异常
说明 如果Job Manager都没启动起来,不属于Job Manager异常,需要在启动日志中去查看。
失效Task Managers日志 运行状态为正常的作业,不会有失败TM。但是对于风险等级较高的,可能有失败的TM,但TM又被拉起了,这时可以查看失败的TM归档日志去定位可能的原因。关于如何查看失败的TM的日志详情,请参见查看失效Task Managers日志
说明 只有开启了日志归档才能查看失效Task Managers日志,并且只能查看日志归档中配置的保留天数之内的失效Task Managers日志。
慢Checkpoint对应的Task Managers日志 作业运行过程中,如果有的Checkpoint运行耗时较长,您需要去查看其具体的原因,则可以去查看其关联的TM的日志。关于如何查看慢Checckpoint关联的TM的日志详情,请参见定位慢Checkpoint并查看对应Task Managers的日志

前提条件

作业实例为运行状态。

注意事项

支持日志分页,每页显示1 MB,大概会显示8000~9000行日志,基本可以帮您排查错误。如果在第一页还未定位到问题,请注意切换日志查看页码。

查看Job Manager异常

  1. 登录实时计算控制台
  2. Flink全托管页签,单击目标工作空间操作列下的开发控制台
  3. 在左侧导航栏上,选择应用 > 作业运维
  4. 单击目标作业名称。
  5. 单击作业探查
  6. 在左侧JM异常页签,查看异常信息。
    JM异常
    说明异常历史中,您可以查看近7天内产生的异常信息,并过滤异常类型后查看历史异常。因为同样的异常信息类似,因此建议您在详情中查看第一页日志信息即可,暂不支持搜索详情信息。

查看失效Task Managers日志

  1. 登录实时计算控制台
  2. Flink全托管页签,单击目标工作空间操作列下的开发控制台
  3. 在左侧导航栏上,选择应用 > 作业运维
  4. 单击目标作业名称。
  5. 单击作业探查
  6. 在左侧运行日志页签,选择正在运行的作业实例。
    左侧绿色小点表示此实例为运行的实例。失效TM
  7. 单击失效Task Managers页签。

定位慢Checkpoint并查看对应Task Managers的日志

  1. 进入作业运维详情页面。
    1. 登录实时计算控制台
    2. Flink全托管页签,单击目标工作空间操作列下的开发控制台
    3. 在左侧导航栏上,选择应用 > 作业运维
    4. 单击目标作业名称。
  2. 作业快照页签,单击Flink Checkpoints历史
    Flink Checkpoint历史
  3. 查看End to End Duration列值,确认慢Checkpoint对应的ID。
    Checkpoint ID
  4. 单击慢Checkpoint对应的ID左侧的加号,确认慢Checkpoint对应的Operators节点。
    节点
  5. 单击Operators节点左侧的加号,展开查看每个Task的情况。
  6. 单击慢Checkpoint对应的Task节点对应的ID
    您可以单击End to End Duration列右侧的排序按钮,按照从大到小排序End to End Duration列的取值,即可快速定位到慢Checkpoint对应的Task节点。Task节点
  7. 在跳转的页面运行Task Managers页签,查看慢Checkpoint日志信息。