全部产品
云市场

场景四:作业无法启动

更新时间:2018-08-14 10:12:21

场景描述

用户在完成作业开发上线以后,在运维页面无法启动作业。

排查流程

1.作业有Failover的情况

  • 排查指引:

查看Failover报错信息,分析job运行异常原因。一般Failover有以下报错:

  1. Slot allocation request timed out
  • 解决方案:

这个问题一般是由于资源不足引起的,如果遇到,先检查资源够不够,不够的话先扩容。

2.资源不足

  • 排查指引:

在运行信息里有如下的报错提示:

  1. Submit blink job failed, name: test_copy, errcode:30011, errmsg:code:[30011], brief info:[error occur while run app], context info:[details:[资源不足,请手动停止任务提交,并联系管理员扩容.(yarn resource not available, so here try to kill it to avoid long time waiting)java.lang.Exception: shell cmd execute failed
  • 解决方案:

查看总览里面的资源够不够,一般都是已使用CU接近已购买CU的时候,作业CU又比较大,导致启动不起来。需要增加资源,公有云版本需要购买新的资源,集团内部需要找Blink Pre的值班人员增加资源。

3.获取资源配置失败

  • 排查指引:

在运行信息里有如下的报错提示:

  1. errcode:30011, errmsg:code:[30011], brief info:[error occur while run app], context info:[details:[任务提交失败,请检查详细日志输出.(submit app failed)java.lang.UnsupportedOperationException: Cannot set chaining strategy on Union Transformation.

报错截图如下:

peizhi

  • 解决方案:

重新获取资源配置。BlinkSQL任务开发完成后,需要点『资源配置』,通过『获取自动生成JSON配置』来生成一份默认的配置文件。

4.无作业指标

  • 排查指引:

在作业运维曲线上没有任何指标,作业一直处于created状态,也没有failover报错。这种情况主要是由于jm没有起来。

  • 解决方案:

先检查是否是资源不足的问题,如果资源足够,手动指定增加CU重启。