本文介绍Flink云监控(免费监控服务)的工作空间接入ARMS可观测监控Prometheus版监控服务,可观测监控Prometheus版可通过配置接入参数主动拉取Flink的性能指标,实现对Flink运行状况的实时监控和数据分析。
前提条件
-
已开通可观测监控Prometheus版,详情请参见Prometheus 实例计费。
-
已开通实时计算Flink版,详情请参见开通实时计算Flink版。
-
已开通阿里云资源中心,详情请参见开通资源中心。
操作步骤
-
登录Prometheus控制台,在左侧导航栏单击接入中心。
-
搜索阿里云Flink服务监控,单击阿里云Flink服务监控卡片。
-
在阿里云Flink服务监控对话框的开始接入页签中,选择待接入的Flink工作空间,单击确定。
在配置信息区域,填写接入名称(包含小写字母、数字、中划线,长度5-32个字符),设置Metric采集间隔(默认30秒)和Metric采集超时时间(默认30秒)。
完整的数据接入大概需要1~2分钟左右。数据未完整接入前,监控大盘不显示数据。
查看监控大盘
可观测监控Prometheus版默认内置了Flink的三张监控大盘,包括Flink Monitoring(Flink ETL作业监控大盘)、Flink Session Cluster Monitoring(Flink Session作业监控大盘)、Flink Change Data Capture Monitoring(Flink CDC作业监控大盘)监控能力,您可以通过以下方式查看监控大盘。
-
登录Prometheus控制台,在左侧导航栏单击接入管理。
-
在接入管理页面,单击已接入环境页签。选择云服务区域环境,然后单击目标环境名称,进入云服务区域环境详情页面。
-
在组件管理页签,选择大盘查看Prometheus内置的监控。
大盘列表中展示三个 Flink 预置监控大盘:Flink Change Data Capture Monitoring、Flink Monitoring 和 Flink Session Cluster Monitoring。
告警规则创建
-
登录 Prometheus控制台 ,单击左侧导航栏 实例列表 。
-
在 实例列表 中单击目标实例名称,进入Prometheus实例详情页面。
-
单击左侧菜单栏的 告警规则 ,再单击 创建告警规则 。
在检测判定区块,指标分组选择VVP Flink基础告警,指标选择部署作业重启,并在检测条件中设置部署作业重启次数阈值。
-
检测类型:支持通过 基于预定义指标配置 和自定义PromQL进行指标告警(Flink已支持的告警指标除外) 。
-
筛选条件: 命名空间 填写项目空间名称; 部署作业 填写项目空间下目标作业的 部署作业ID (在Flink作业 部署详情 页签查看),选择等于时,对指定作业进行监控告警。
更多配置参数详情请参见创建Prometheus告警规则 。
-