文档

在Prometheus告警通知中配置指标走势图

更新时间:

ARMS Prometheus告警支持在钉钉群的告警卡片中增加指标走势图的展示。通过展示指标走势图可以获取更多关于该告警的信息,从而有助于排查和定位问题。本文主要介绍如何配置Prometheus告警才能在通知卡片中增加指标走势图。

前提条件

  • 已创建钉群,具体操作,请参见钉钉机器人

  • 已设置钉群为告警通知人的通知策略,具体操作,请参见通知策略

使用限制

仅支持在钉钉群的告警卡片中增加指标走势图的展示。

配置指标走势图

  1. 登录ARMS控制台
  2. 在左侧导航栏,选择Prometheus监控 > Prometheus告警规则

  3. Prometheus告警规则页面:

    • 如果需要在已有告警中配置指标走势图,在需要增加指标走势图的告警规则右侧,单击编辑

    • 如果需要在新建告警中配置指标走势图,单击页面右上角的创建Prometheus告警规则

  4. 在编辑或创建页面,执行以下操作:

    1. 告警通知区域选择普通模式,然后选择通知人为钉群的通知策略。

    2. 展开高级设置,在注释区域,单击创建注释,增加以下两个注释。

      示例

      _aliyun_display_promql

      用于展示指标走势图的查询PromQL语句,通常情况下是告警PromQL去掉阈值判断之后的语句。 例如:cpu_usage > 80需要改为cpu_usage

      _aliyun_display_promql:cpu_usage

      _aliyun_display_name

      指标走势图中指标的名称。

      _aliyun_display_name:容器CPU使用率

    3. 根据需要修改其他参数,其他参数的说明,请参见Prometheus告警规则

    4. 单击保存。然后单击完成

查看指标走势图

配置完成后,当有告警触发时,在客户端钉钉群的告警卡片中查看指标走势图。

告警卡片中的其他信息,请参见在告警通知群中处理告警

Prometheus告警指标走势图

常见问题

  • 为什么不使用告警的PromQL来获取指标走势图,还需要人为配置?

    用于告警的PromQL和用户展示图表的PromQL不完全相同(包含阈值判断,与、或逻辑等),在指标展示的PromQL中需要删除这部分内容。

  • 为什么配置了_aliyun_display_promql仍然无法展示图片?

    _aliyun_display_promql与报警PromQL查询出的内容需要满足标签完全一致才能渲染图表。通常一个PromQL可以查出多条时间序列,告警需要根据标签筛选出其中一条时间序列来渲染走势图。例如cpu_usage > 80查出来的指标中包含了pod_namecontainer 2个标签,那么对应的_aliyun_display_promql查询结果也需要包含这两个标签。