作业智能诊断基于阿里云技术专家排查Flink作业高频问题的运维经验,提供作业开发态报错日志诊断、运行态健康分及异常态根因诊断作业,Flink具有全生命周期的看护和诊断能力,并给出可理解和可操作的诊断建议,全方位保障您的业务稳定可靠运行。本文为您介绍如何使用作业智能诊断功能。

背景信息

作业智能诊断会对Flink作业全生命周期(配置、启动、运行、停止)过程中产生的日志、事件、指标以及配置进行全量实时分析,诊断出稳定性隐患和导致稳定性问题的根因,并针对诊断结果给出相应的优化和建议。系统根据风险的严重程度,将风险作业划分为以下三个等级:
  • 高(HIGH):作业存在可能引起运行异常、数据准确性或其他等价行为的风险 。
  • 中(MID):作业存在性能瓶颈或其他等价行为的风险。
  • 低(LOW):作业存在资源利用率不高或其他等价行为的风险,您可以使用参数进行优化或者减少资源。
作业智能诊断的能力如下图所示。诊断能力

使用限制

仅流作业支持作业智能诊断功能。批作业不支持作业智能诊断功能。

操作步骤

  1. 登录实时计算控制台
  2. Flink全托管页签,单击目标工作空间操作列下的控制台
  3. 在左侧导航栏上,选择应用 > 作业运维
  4. 对目标作业,进行作业智能诊断。
    您通过以下任意一个入口进行作业智能诊断:
    • 在作业列表页面,单击目标作业健康分按钮。健康分按钮
    • 单击目标作业名称后,在页面右上角,单击诊断诊断
  5. 查看诊断结果及建议。
    诊断结果

    具体的诊断类型、阶段、诊断项及处理方法详情请参见功能概览。如果您需要进一步查看日志信息,则可以单击作业探查中心,详情请参见查看运行异常日志

功能概览

类型阶段诊断项说明
异常(影响作业当前运行)启动启动文件分析如果作业需要的OSS中的JAR包不存在,则作业会无法启动。请您重新上传JAR包后再启动作业。
资源分析如果剩余可用资源不足,则作业无法启动。请您调小作业资源配置或对集群进行扩容解决。
如果绑定CNI失败,则作业无法启动。请您检查对应vSwitch IP是否用完。
如果弹性网卡ENI的IP用量超过网络上限,则作业无法启动。建议您扩容弹性网卡后重试。
拓扑网络分析如果TaskManager与JobManager的网络不通,则作业状态显示异常。
如果最近10分钟内存在弹性网卡挂载超时,则作业启动慢。建议您耐心等待。
上下游网络分析如果TCP端口探测正常,但Connector无法连通,作业无法启动。建议您检查上下游服务网络配置是否正确。
上下游权限探测如果上游数据源无法连通,则作业无法启动。建议您检查上游服务权限配置。
如果下游数据源无法连通,则作业无法启动。建议您检查下游服务权限配置。
启动速度分析如果作业JAR包过大,则作业启动慢。建议您压缩JAR包后重新上传或耐心等待。
JobGraph检查由于产品老版本存在配置文件丢失的隐患,因此作业FailOver后可能会无法恢复。请手动重启(停止后再启动)作业解决。
Session集群检查由于产品老版本存在Session集群异常的隐患,因此作业状态可能会显示异常。
运行HA状态检查如果作业未开启HA,则作业FailOver无法正常恢复。请重新上线作业并手动重启(停止后再启动)作业解决。
Checkpoint检查由于产品老版本存在CheckPoint功能异常的隐患,因此Checkpoint可能会失败。
上下游权限探测如果TCP端口探测正常,但Connector无法连通,作业无法启动。建议您检查上下游服务权限配置。
停止停止速度分析由于产品老版本过低的隐患,因此停止作业会比较慢。如果出现作业停止比较慢的情况,请通过手动重启(停止后再启动)作业解决。
风险(不影响作业当前运行)配置JobGraph检查虽然作业当前状态正常,但系统检测到产品老版本存在配置文件丢失的隐患,FailOver后无法恢复。请手动重启(停止后再启动)作业解决。
HA状态检查虽然作业当前状态正常,但系统检测到由于作业未开启HA,会导致FailOver后无法恢复,请重新上线作业并手动重启(停止后再启动)作业解决。
版本检查虽然作业当前状态正常,但检测使用的版本存在重大缺陷。
运行Checkpoint检查作业当前状态虽正常,但检测到由于产品老版本存在Checkpoint异常的稳定性隐患。
作业当前状态虽正常,但检测到Checkpoint已长时间未做成功。
停止速度分析作业当前状态虽正常,但检测到由于产品老版本存在停止作业慢的隐患,请通过手动重启(停止后再启动)作业解决。