本文介绍使用高级监控报警服务配置指标报警时,遇到的常用名词的基本概念和简要描述。
报警规则
报警的触发条件和通知方式。
报警组
一个报警组包含多条报警规则。
报警事件
系统每隔1分钟,就会根据报警规则中设置的报警触发条件,判断指标是否触发报警。如果触发,则会生成一个报警事件记录。
通知记录
报警事件生成之后,系统会根据报警规则中设置的报警生效时段和报警间隔,判断是否发送报警通知(电话、短信、钉钉群机器人)给您。如果发送,则会生成一个通知记录。
指标
表示事物的状态大小。例如disk.io.util表示节点磁盘使用率、load.1min表示1分钟内节点的负载。
tags
指标的属性标签,能够进一步对指标进行过滤,取值是一组键值对。例如指标disk.io.util通常带有属性host=localhost、dev=/ssd/1,表示localhost主机中/ssd/1磁盘的使用率。
指标聚合
如果指标有多条曲线(指标的所有tags取值的组合表示曲线的个数),多条曲线聚合成一条曲线的算法。
采样聚合
指标的单条曲线在检测周期内(默认1分钟),多个数据点聚合成一个点的算法。
阈值报警
当前指标的值和阈值实时比较,如果符合设定的阈值条件,则触发报警。
波动报警
假设当前指标的值为a,一段时间前指标的值为b。对两者计算差值(a-b),或者变化率(a-b)/b,然后将计算结果和阈值条件进行比较,如果符合条件,则触发报警。
无数据校验
如果系统连续一段时间(默认1分钟)没有检测到任何数据,则触发报警。