接入ARMS告警服务

更新时间:
复制 MD 格式

本文介绍Flink云监控(免费监控服务)的工作空间接入ARMS可观测监控Prometheus版监控服务,可观测监控Prometheus版可通过配置接入参数主动拉取Flink的性能指标,实现对Flink运行状况的实时监控和数据分析。

前提条件

操作步骤

  1. 登录Prometheus控制台,在左侧导航栏单击接入中心

  2. 搜索阿里云Flink服务监控,单击阿里云Flink服务监控卡片。

  3. 阿里云Flink服务监控对话框的开始接入页签中,选择待接入的Flink工作空间,单击确定

    配置信息区域,填写接入名称(包含小写字母、数字、中划线,长度5-32个字符),设置Metric采集间隔(默认30秒)和Metric采集超时时间(默认30秒)。

说明

完整的数据接入大概需要1~2分钟左右。数据未完整接入前,监控大盘不显示数据。

查看监控大盘

可观测监控Prometheus版默认内置了Flink的三张监控大盘,包括Flink Monitoring(Flink ETL作业监控大盘)、Flink Session Cluster Monitoring(Flink Session作业监控大盘)、Flink Change Data Capture Monitoring(Flink CDC作业监控大盘)监控能力,您可以通过以下方式查看监控大盘。

  1. 登录Prometheus控制台,在左侧导航栏单击接入管理

  2. 接入管理页面,单击已接入环境页签。选择云服务区域环境,然后单击目标环境名称,进入云服务区域环境详情页面。

  3. 组件管理页签,选择大盘查看Prometheus内置的监控。

    大盘列表中展示三个 Flink 预置监控大盘:Flink Change Data Capture MonitoringFlink MonitoringFlink Session Cluster Monitoring

告警规则创建

  1. 登录 Prometheus控制台 ,单击左侧导航栏 实例列表

  2. 实例列表 中单击目标实例名称,进入Prometheus实例详情页面。

  3. 单击左侧菜单栏的 告警规则 ,再单击 创建告警规则

    检测判定区块,指标分组选择VVP Flink基础告警指标选择部署作业重启,并在检测条件中设置部署作业重启次数阈值。

    • 检测类型:支持通过 基于预定义指标配置 和自定义PromQL进行指标告警(Flink已支持的告警指标除外) 。

    • 筛选条件: 命名空间 填写项目空间名称; 部署作业 填写项目空间下目标作业的 部署作业ID (在Flink作业 部署详情 页签查看),选择等于时,对指定作业进行监控告警。

    更多配置参数详情请参见创建Prometheus告警规则

相关文档