文档

如何处理监控指标满足报警条件但未触发报警问题?

更新时间:

当您的某个监控指标达到报警阈值,但未触发报警时,请按照以下步骤排查。

背景信息

每个报警条件都是一个有固定阈值的表达式,其中包括监控指标、报警级别、周期和阈值。监控指标中的周期(period)是指监控指标数据点的间隔时间和聚合时间,例如:大多数监控指标的周期(period)=60秒,表示每60秒产生一个数据点,这个监控数据是过去60秒所有监控值的聚合值。报警的检测周期由周期(period)决定,对于多指标表达式且周期(period)不同的情况,以最短的周期(period)为准。

说明
  • 每个监控指标的聚合方式不同,具体请参见附录1 云产品监控指标中的目标云产品指标列表页面中的Statistics列。

  • 每个监控指标的周期(period)不同,具体请参见附录1 云产品监控指标中的目标云产品指标列表页面中的Min Periods列。

操作步骤

本文以ECS实例的CPU使用率连续3个周期的最大值大于等于90%为例进行介绍。

  1. 查看CPU使用率的监控数据,特别是监控指标的最大值和周期(period)。

    关于如何查看其他云产品监控数据,请参见查看监控数据

    1. 登录云监控控制台

    2. 在左侧导航栏,单击主机监控

    3. 主机监控页面,单击目标主机名称或对应操作列的监控图表

      基础监控页签,查看CPU使用率的监控图表,确认其最大值和周期(period)。

  2. 查看CPU使用率的最新阈值报警规则,再次确认是否达到报警条件。

    1. 在左侧导航栏,选择报警服务 > 报警规则

    2. 报警规则页面,筛选出目标报警规则,单击操作列的详情

      详情页签,查看报警条件(重点关注阈值和周期)、生效时间、报警状态和关联资源。当目标ECS实例的CPU使用率连续3个周期的最大值大于等于90%时,达到报警条件,同时需要确保报警状态正常,且在生效范围内,即可触发报警。

  3. 查看目标ECS实例是否在报警黑名单中。

    在左侧导航栏,选择报警服务 > 报警黑名单

    报警黑名单页面,查看所有黑名单策略是否包含目标ECS实例。

说明

对于容器服务Kubernetes版,其报警规则的通道沉默周期是规则级的,例如:当通道沉默周期为24小时,某个容器组(pod)发生一次普通报警后,其他容器组(pod)将在24小时内不会发送报警通知。当容器组(pod)的报警级别发生变化时,会触发一次报警。

相关文档