作业智能诊断基于阿里云技术专家排查Flink作业高频问题的运维经验,提供作业开发态报错日志诊断、运行态健康分及异常态根因诊断作业,Flink具有全生命周期的看护和诊断能力,并给出可理解和可操作的诊断建议,全方位保障您的业务稳定可靠运行。本文为您介绍如何使用作业智能诊断功能。
背景信息
作业智能诊断会对Flink作业全生命周期(配置、启动、运行、停止)过程中产生的日志、事件、指标以及配置进行全量实时分析,诊断出稳定性隐患和导致稳定性问题的根因,并针对诊断结果给出相应的优化和建议。系统根据风险的严重程度,将风险作业划分为以下三个等级:
- 高(HIGH):作业存在可能引起运行异常、数据准确性或其他等价行为的风险 。
- 中(MID):作业存在性能瓶颈或其他等价行为的风险。
- 低(LOW):作业存在资源利用率不高或其他等价行为的风险,您可以使用参数进行优化或者减少资源。
作业智能诊断的能力如下图所示。

使用限制
仅流作业支持作业智能诊断功能。批作业不支持作业智能诊断功能。
操作步骤
- 登录实时计算控制台。
- 在Flink全托管页签,单击目标工作空间操作列下的控制台。
- 在左侧导航栏上,选择 。
- 对目标作业,进行作业智能诊断。您通过以下任意一个入口进行作业智能诊断:
- 在作业列表页面,单击目标作业健康分按钮。
- 单击目标作业名称后,在页面右上角,单击诊断。
- 在作业列表页面,单击目标作业健康分按钮。
- 查看诊断结果及建议。
功能概览
类型 | 阶段 | 诊断项 | 说明 |
---|---|---|---|
异常(影响作业当前运行) | 启动 | 启动文件分析 | 如果作业需要的OSS中的JAR包不存在,则作业会无法启动。请您重新上传JAR包后再启动作业。 |
资源分析 | 如果剩余可用资源不足,则作业无法启动。请您调小作业资源配置或对集群进行扩容解决。 | ||
如果绑定CNI失败,则作业无法启动。请您检查对应vSwitch IP是否用完。 | |||
如果弹性网卡ENI的IP用量超过网络上限,则作业无法启动。建议您扩容弹性网卡后重试。 | |||
拓扑网络分析 | 如果TaskManager与JobManager的网络不通,则作业状态显示异常。 | ||
如果最近10分钟内存在弹性网卡挂载超时,则作业启动慢。建议您耐心等待。 | |||
上下游网络分析 | 如果TCP端口探测正常,但Connector无法连通,作业无法启动。建议您检查上下游服务网络配置是否正确。 | ||
上下游权限探测 | 如果上游数据源无法连通,则作业无法启动。建议您检查上游服务权限配置。 | ||
如果下游数据源无法连通,则作业无法启动。建议您检查下游服务权限配置。 | |||
启动速度分析 | 如果作业JAR包过大,则作业启动慢。建议您压缩JAR包后重新上传或耐心等待。 | ||
JobGraph检查 | 由于产品老版本存在配置文件丢失的隐患,因此作业FailOver后可能会无法恢复。请手动重启(停止后再启动)作业解决。 | ||
Session集群检查 | 由于产品老版本存在Session集群异常的隐患,因此作业状态可能会显示异常。 | ||
运行 | HA状态检查 | 如果作业未开启HA,则作业FailOver无法正常恢复。请重新上线作业并手动重启(停止后再启动)作业解决。 | |
Checkpoint检查 | 由于产品老版本存在CheckPoint功能异常的隐患,因此Checkpoint可能会失败。 | ||
上下游权限探测 | 如果TCP端口探测正常,但Connector无法连通,作业无法启动。建议您检查上下游服务权限配置。 | ||
停止 | 停止速度分析 | 由于产品老版本过低的隐患,因此停止作业会比较慢。如果出现作业停止比较慢的情况,请通过手动重启(停止后再启动)作业解决。 | |
风险(不影响作业当前运行) | 配置 | JobGraph检查 | 虽然作业当前状态正常,但系统检测到产品老版本存在配置文件丢失的隐患,FailOver后无法恢复。请手动重启(停止后再启动)作业解决。 |
HA状态检查 | 虽然作业当前状态正常,但系统检测到由于作业未开启HA,会导致FailOver后无法恢复,请重新上线作业并手动重启(停止后再启动)作业解决。 | ||
版本检查 | 虽然作业当前状态正常,但检测使用的版本存在重大缺陷。 | ||
运行 | Checkpoint检查 | 作业当前状态虽正常,但检测到由于产品老版本存在Checkpoint异常的稳定性隐患。 | |
作业当前状态虽正常,但检测到Checkpoint已长时间未做成功。 | |||
停止速度分析 | 作业当前状态虽正常,但检测到由于产品老版本存在停止作业慢的隐患,请通过手动重启(停止后再启动)作业解决。 |