当您的某个监控指标达到报警阈值,但未触发报警时,请按照以下步骤排查。
背景信息
每个报警条件都是一个有固定阈值的表达式,其中包括监控指标、报警级别、周期和阈值。监控指标中的周期(period)是指监控指标数据点的间隔时间和聚合时间,例如:大多数监控指标的周期(period)=60秒,表示每60秒产生一个数据点,这个监控数据是过去60秒所有监控值的聚合值。报警的检测周期由周期(period)决定,对于多指标表达式且周期(period)不同的情况,以最短的周期(period)为准。
每个监控指标的聚合方式不同,具体请参见附录1 云产品监控指标中的目标云产品指标列表页面中的Statistics列。如果报警规则配置的Statistics不是对应指标的Statistics,规则状态是正常,不会告警。
每个监控指标的周期(period)不同,具体请参见附录1 云产品监控指标中的目标云产品指标列表页面中的Min Periods列。
操作步骤
本文以ECS实例的CPU使用率连续3个周期的最大值大于等于90%为例进行介绍。
查看CPU使用率的监控数据,特别是监控指标的最大值和周期(period)。
关于如何查看其他云产品监控数据,请参见查看监控数据。
登录云监控控制台。
在左侧导航栏,单击
。在主机监控页面,单击目标主机名称或对应操作列的监控图表。
在基础监控页签,查看CPU使用率的监控图表,确认其最大值和周期(period)。
查看CPU使用率的最新阈值报警规则,再次确认是否达到报警条件。
在左侧导航栏,选择
。在报警规则页面,筛选出目标报警规则,单击操作列的详情。
在详情页签,查看报警条件(重点关注阈值和周期)、生效时间、报警状态和关联资源。当目标ECS实例的CPU使用率连续3个周期的最大值大于等于90%时,达到报警条件,同时需要确保报警状态正常,且在生效范围内,即可触发报警。
查看目标ECS实例是否在报警黑名单中。
在左侧导航栏,选择 。
在报警黑名单页面,查看所有黑名单策略是否包含目标ECS实例。
对于容器服务Kubernetes版,其报警规则的通道沉默周期是规则级的,例如:当通道沉默周期为24小时,某个容器组(pod)发生一次普通报警后,其他容器组(pod)将在24小时内不会发送报警通知。当容器组(pod)的报警级别发生变化时,会触发一次报警。