ARMS Prometheus告警支持在钉钉群的告警卡片中增加指标走势图的展示。通过展示指标走势图可以获取更多关于该告警的信息,从而有助于排查和定位问题。本文主要介绍如何配置Prometheus告警才能在通知卡片中增加指标走势图。

前提条件

  • 已创建钉群,具体操作,请参见钉群
  • 已设置钉群为告警通知人的通知策略,具体操作,请参见通知策略

配置指标走势图

  1. 登录ARMS控制台
  2. 在左侧导航栏,选择Prometheus监控
  3. Prometheus监控页面的顶部菜单栏,选择K8s集群所在的地域,单击目标K8s集群的名称。
  4. 在左侧导航栏,选择报警配置
  5. 报警配置页面:
    • 如果需要在已有告警中配置指标走势图,在需要增加指标走势图的告警右侧,单击编辑
    • 如果需要在新建告警中配置指标走势图,单击页面右上角的创建报警
  6. 编辑报警创建报警面板,执行以下操作:
    1. 高级配置注释区域,单击创建注释,增加以下两个注释。
      示例
      _aliyun_display_promql 用于展示指标走势图的查询PromQL语句,通常情况下是告警PromQL去掉阈值判断之后的语句。 例如:cpu_usage > 80需要改为cpu_usage _aliyun_display_promql:cpu_usage
      _aliyun_display_name 指标走势图中指标的名称。 _aliyun_display_name:容器CPU使用率
    2. 选择通知人为钉群的通知策略。
    3. 根据需要修改其他参数,其他参数的说明,请参见创建报警
    4. 单击确定

查看指标走势图

配置完成后,当有告警触发时,在客户端钉钉群的告警卡片中查看指标走势图。

告警卡片中的其他信息,请参见在钉钉群中处理告警

Prometheus告警指标走势图

常见问题

  • 为什么不使用告警的PromQL来获取指标走势图,还需要人为配置?

    用于告警的PromQL和用户展示图表的PromQL不完全相同(包含阈值判断,与、或逻辑等),在指标展示的PromQL中需要删除这部分内容。

  • 为什么配置了_aliyun_display_promql仍然无法展示图片?

    _aliyun_display_promql与报警PromQL查询出的内容需要满足标签完全一致才能渲染图表。通常一个PromQL可以查出多条时间序列,告警需要根据标签筛选出其中一条时间序列来渲染走势图。例如cpu_usage > 80查出来的指标中包含了pod_namecontainer 2个标签,那么对于的_aliyun_display_promql查询结果也需要包含这两个标签。