常见问题

本章节汇总了使用ARMS告警管理监控的常见问题。

本页目录

ARMS Prometheus监控新旧版本告警规则有何不同?

ARMS Prometheus监控新版告警提供的告警模板经过阿里云验证过,旧版告警规则是开源提供的告警规则,其有效性没有经过阿里云的验证。

ARMS新版告警相比于旧版告警,引入了告警管理的概念。所有在ARMS上创建的告警规则,当告警触发时都会发送告警事件到告警管理,然后用户可以根据告警的特点来订阅告警管理中感兴趣的告警。

这样做的好处有以下几点:

  • 配置告警的工作变得简单,配置告警时只需要配置告警的触发规则即可。可以批量设置告警,提高生产效率。

  • 可以按照比告警规则更细的粒度来配置通知,如可以按照Kubernetes的命名空间来订阅告警进行通知。

  • 告警的通知策略只需要配置一次即可,极大的降低了配置工作量。

image

建议按照用户组进行订阅的思路来配置通知策略中的分派规则。

示例场景:

  • 基础设施运维:用户组需要订阅生产集群资源使用率和k8s组件告警。

    对应的分派规则如下:

    • 规则1:

      alertName == 节点CPU使用率大于80% & clusterName == 生产集群
    • 规则2:

      alertname ==  ApiServer 故障  & clusterName == 生产集群
  • 支付业务运维:用户组需要订阅生产集群命名空间paypay-pre下的告警。

    对应的分派规则如下:

    namespace 正则匹配 pay.*   & clustername == 生产集群
  • P1告警紧急通知:用户组需要订阅严重程度为critical的生产集群告警。

    对应的分派规则如下:

    severity == critial  & clustername == 生产集群

指定了新的通知策略,仍然收到了旧的告警通知?

找到收到的告警通知中的【通知策略】字段,在告警控制台找到对应的通知策略。查看通知策略中的分派条件。

  1. 查看收到的旧告警发送内容中的通知策略。具体操作,请参见查看告警发送历史

  2. 根据通知策略名称在ARMS控制台查看该通知策略的分派规则是否匹配了这个告警。具体操作,请参见通知策略

    如果您收到的告警满足通知策略中的分派条件,则收到的告警通知是符合预期的。

为什么配置了告警规则的通知策略,告警还是发给我了?

  1. 查看告警发送内容中的通知策略。具体操作,请参见查看告警发送历史

  2. 根据通知策略名称在ARMS控制台查看该通知策略的分派规则是否匹配了这个告警。具体操作,请参见通知策略

    如果您收到的告警满足通知策略中的分派条件,则收到告警通知是符合预期的。

为什么通知策略中出现了标签为_aliyun_arms_alert_rule_id的分派条件?

在创建告警规则时如果指定了通知策略,则会在被指定的通知策略中添加_aliyun_arms_alert_rule_id == {{该告警规则ID}}的分派条件。

为什么告警选择了不指定通知策略,还是能收到告警通知?

无论告警规则中是否指定了通知策略,告警都会发送到告警管理。只要该告警满足了其他通知策略的分派条件就会通过其他通知策略进行通知。

通知策略之间是平级关系吗?

通知策略之间是平级关系,如果一个告警触发了多个通知策略的分派条件,则会由多个通知策略发送通知。

分派规则之间的关系是什么?

同一个通知策略中不同的分派规则之间的关系是或者的关系,只要告警满足任意一个分派规则就会通过该通知策略发送通知。同一个分派规则内的多个条件是并且的关系,只有全部满足了这些条件才能匹配这条分派规则。

创建告警规则时选择指定通知策略还是不指定通知策略?

在创建告警时指定通知策略可以满足最基础的告警配置要求,即配置一个告警A发给B。对于更高级的告警需求(如分拣、静默、抑制、分组、流程处理等),建议您配置告警规则为不指定通知策略,然后在ARMS控制台的告警管理中根据业务需求创建自定义的通知策略。具体操作,请参见通知策略

为什么告警会误报?

告警出现以下误报:

  • 节点CPU告警数值异常,使用率显示为8000%多。

  • Pod状态异常。

  • Pod启动超时。

这个问题是由于历史版本的告警模板存在配置不当造成的,ARMS告警管理已经升级了告警模板。但是对于已经使用了历史模板创建告警的用户还需要手动更新一下告警的内容才能生效。

如果您没有修改过告警的配置,那么更新告警模板方式如下:

  1. 删除使用历史模板创建的告警。

  2. 使用新的告警模板重新创建告警。

各监控产品删除和创建告警的操作如下:

告警管理和Alertmanager是什么关系,能否将ARMS Prometheus监控的告警发送到自己搭建的Alertmanager上?

Prometheus开源体系中,Prometheus告警触发后可以发送到Alertmanager中进行分派通知等处理。在ARMS Prometheus监控场景下,告警管理相当于一个阿里云托管的多租户Alertmanager, ARMS Prometheus监控告警在触发后会自动发送到告警管理(无需配置)。ARMS告警管理支持开源Alertmanager的主要功能。

ARMS Prometheus监控告警不支持配置将告警发送到用户自建的Alertmanager中。ARMS告警管理支持通过Webhook的方式以Alertmanager的格式向外上报告警。具体操作,请参见通过Webhook上报告警的格式说明

image

为什么告警通知内容中出现有事件新增字样?

告警通知内容中未配置有事件新增字样,实际收到的告警通知却有。有事件新增

告警事件按照Label进行分组,每一组事件会产生不同的告警,如果有新的事件添加到这个告警的一组事件中时, 会在告警内容里增加有事件新增字样并且重新发送一次告警通知。

如何修改告警钉钉卡片内容?

告警卡片分为2个部分,如下图所示,告警内容部分是通过配置通知策略中的通知模板实现的(图示①),其他部分可以通过配置机器人来实现。image.png

配置通知策略的通知模板

  1. 登录ARMS控制台
  2. 在左侧导航栏选择告警管理 > 通知策略,然后单击目标通知策略操作列的编辑

  3. 在弹出的面板单击通知对象页签,然后在钉钉/飞书/企微页签下修改通知内容信息。image.png

    说明

    通知内容默认采用go template语法进行渲染。语法说明请参见配置通知模板和Webhook模板

配置告警卡片上其他内容

  1. 在左侧导航栏选择告警管理 > 通知对象

  2. 单击钉钉/飞书/企微页签,然后单击目标通知策略操作列的编辑

  3. 在弹出的面板中,您可以根据需要编辑卡片样式。