本文介绍使用高级监控报警服务时,遇到的常用名词的基本概念和简要描述。

报警规则

报警的触发条件和通知方式。

报警组

一个报警组包含多条报警规则。

报警事件

系统每隔1分钟,就会根据报警规则中设置的报警触发条件,判断指标是否触发报警。如果触发,则会生成一个报警事件记录。

通知记录

报警事件生成之后,系统会根据报警规则中设置的报警生效时段和报警间隔,判断是否发送报警通知(电话、短信、钉钉群机器人)给您。如果发送,则会生成一个通知记录。

指标

表示事物的状态大小。例如disk.io.util表示节点磁盘使用率、load.1min表示1分钟内节点的负载。

tags

指标的属性标签,能够进一步对指标进行过滤,取值是一组键值对。例如指标disk.io.util通常带有属性host=localhostdev=/ssd/1,表示localhost主机中/ssd/1磁盘的使用率。

指标聚合

如果指标有多条曲线(指标的所有tags取值的组合表示曲线的个数),多条曲线聚合成一条曲线的算法。

采样聚合

指标的单条曲线在检测周期内(默认1分钟),多个数据点聚合成一个点的算法。

阈值报警

当前指标的值和阈值实时比较,如果符合设定的阈值条件,则触发报警。

波动报警

假设当前指标的值为a,一段时间前指标的值为b。对两者计算差值(a-b),或者变化率(a-b)/b,然后将计算结果和阈值条件进行比较,如果符合条件,则触发报警。

无数据校验

如果系统连续一段时间(默认1分钟)没有检测到任何数据,则触发报警。