本章节汇总了使用ARMS告警管理监控的常见问题。

本页目录

ARMS Prometheus监控新旧版本告警规则有何不同?

ARMS Prometheus监控新版告警提供的告警模板经过阿里云验证过,旧版告警规则是开源提供的告警规则,其有效性没有经过阿里云的验证。

ARMS新版告警相比于旧版告警,引入了告警管理的概念。所有在ARMS上创建的告警规则,当告警触发时都会发送告警事件到告警管理,然后用户可以根据告警的特点来订阅告警管理中感兴趣的告警。

这样做的好处有以下几点:
  • 配置告警的工作变得简单,配置告警时只需要配置告警的触发规则即可。可以批量设置告警,提高生产效率。
  • 可以按照比告警规则更细的粒度来配置通知,如可以按照Kubernetes的命名空间来订阅告警进行通知。
  • 告警的通知策略只需要配置一次即可,极大的降低了配置工作量。
新旧告警对比

建议按照用户组进行订阅的思路来配置通知策略中的分派规则。

示例场景:

  • 基础设施运维:用户组需要订阅生产集群资源使用率和k8s组件告警。

    对应的分派规则如下:

    • 规则1:
      alertName == 节点CPU使用率大于80% & clusterName == 生产集群
    • 规则2:
      alertname ==  ApiServer 故障  & clusterName == 生产集群
  • 支付业务运维:用户组需要订阅生产集群命名空间pay和pay-pre下的告警。

    对应的分派规则如下:

    namespace 正则匹配 pay.*   & clustername == 生产集群
  • P1告警紧急通知:用户组需要订阅严重程度为critical的生产集群告警。

    对应的分派规则如下:

    severity == critial  & clustername == 生产集群

指定了新的通知策略,仍然收到了旧的告警通知?

找到收到的告警通知中的【通知策略】字段,在告警控制台找到对应的通知策略。查看通知策略中的分派条件。

  1. 查看收到的旧告警发送内容中的通知策略。具体操作,请参见查看告警发送历史
  2. 根据通知策略名称在ARMS控制台查看该通知策略的分派规则是否匹配了这个告警。具体操作,请参见通知策略

    如果您收到的告警满足通知策略中的分派条件,则收到的告警通知是符合预期的。

为什么配置了告警规则的通知策略,告警还是发给我了?

  1. 查看告警发送内容中的通知策略。具体操作,请参见查看告警发送历史
  2. 根据通知策略名称在ARMS控制台查看该通知策略的分派规则是否匹配了这个告警。具体操作,请参见通知策略

    如果您收到的告警满足通知策略中的分派条件,则收到告警通知是符合预期的。

为什么通知策略中出现了标签为_aliyun_arms_alert_rule_id的分派条件?

在创建告警规则时如果指定了通知策略,则会在被指定的通知策略中添加_aliyun_arms_alert_rule_id == {{该告警规则ID}}的分派条件。

为什么告警选择了不指定通知策略,还是能收到告警通知?

无论告警规则中是否指定了通知策略,告警都会发送到告警管理。只要该告警满足了其他通知策略的分派条件就会通过其他通知策略进行通知。

通知策略之间是平级关系吗?

通知策略之间是平级关系,如果一个告警触发了多个通知策略的分派条件,则会由多个通知策略发送通知。

分派规则之间的关系是什么?

同一个通知策略中不同的分派规则之间的关系是或者的关系,只要告警满足任意一个分派规则就会通过该通知策略发送通知。同一个分派规则内的多个条件是并且的关系,只有全部满足了这些条件才能匹配这条分派规则。

创建告警规则时选择指定通知策略还是不指定通知策略?

在创建告警时指定通知策略可以满足最基础的告警配置要求,即配置一个告警A发给B。对于更高级的告警需求(如分拣、静默、抑制、分组、流程处理等),建议您配置告警规则为不指定通知策略,然后在ARMS控制台的告警管理中根据业务需求创建自定义的通知策略。具体操作,请参见通知策略

为什么告警会误报?

告警出现以下误报:

  • 节点CPU告警数值异常,使用率显示为8000%多。
  • Pod状态异常。
  • Pod启动超时。

这个问题是由于历史版本的告警模板存在配置不当造成的,ARMS告警管理已经升级了告警模板。但是对于已经使用了历史模板创建告警的用户还需要手动更新一下告警的内容才能生效。

如果您没有修改过告警的配置,那么更新告警模板方式如下:

  1. 删除使用历史模板创建的告警。
  2. 使用新的告警模板重新创建告警。
各监控产品删除和创建告警的操作如下:

告警管理和Alertmanager是什么关系,能否将ARMS Prometheus监控的告警发送到自己搭建的Alertmanager上?

在Prometheus开源体系中,Prometheus告警触发后可以发送到Alertmanager中进行分派通知等处理。在ARMS Prometheus监控场景下,告警管理相当于一个阿里云托管的多租户Alertmanager, ARMS Prometheus监控告警在触发后会自动发送到告警管理(无需配置)。ARMS告警管理支持开源Alertmanager的主要功能。

ARMS Prometheus监控告警不支持配置将告警发送到用户自建的Alertmanager中。ARMS告警管理支持通过Webhook的方式以Alertmanager的格式向外上报告警。具体操作,请参见通过Webhook上报告警的格式说明

告警管理和AlertManager的关系