本文列出了SAE告警管理的主要术语。
B
补零、补一、补Null
- 报警数据修订策略可选择为补零、补一或补Null(默认)。此功能一般用于无数据、复合指标和环比同比等异常的数据修复。
- 补零: 将被判断的数值修复为0。
- 补一: 将被判断的数值修复为1。
- 补Null: 不会触发报警。
应用场景:- 异常情况一:无数据
用户A想利用报警功能监控页面访问量。创建报警时,选择前端监控报警,设置报警规则为N=5时页面访问量的总和小于等于10则报警。若该页面一直没有被访问,则没有数据上报,不会发送报警。为解决此类问题,可将报警数据修订策略勾选为补零,将没有收到数据视为收到零条数据,符合报警规则,即可发送报警。
- 异常情况二:复合指标异常
用户B想利用报警功能监控商品的实时单价。创建报警时,选择自定义监控报警,设置变量a的数据集为当前总价,变量b的数据集为当前商品总数,报警规则为N=3时 (当前总价)/(当前商品总数)的最小值小于等于10则报警。若当前商品总数为0时,复合指标(当前总价)/(当前商品总数)的值不存在,则不会发送报警。为解决此类问题,可将报警数据修订策略勾选为补零,将复合指标(当前总价)/(当前商品总数)的值视为0,符合报警规则,即可发送报警。
- 异常情况三:指标环比、同比异常
用户C想利用报警功能监控节点机用户使用CPU百分比。创建报警时,选择应用监控,设置报警规则为N=3时节点机用户使用CPU百分比的平均值环比下降100%则报警。若最近N分钟用户的CPU故障无法工作,即α无法获取,导致环比结果不存在,则不会发送报警。为解决此类问题,可将报警数据修订策略勾选为补一,将环比结果视为下降100%,符合报警规则,即可发送报警。
C
重复升级规则
- 如果升级策略判断过所有升级规则后,仍未解决告警,则将重新开始升级判断。默认为重复1次,您也可以将其调整为9以内的其他次数。
G
告警
- 指需要通知联系人去解决的告警。只有通过通知策略触发的需要解决的事件,才会创建告警。
告警管理
- 指整个告警管理功能。
告警卡片
- 钉钉群的机器人通过卡片的形式向钉钉群发送告警。联系人可以通过卡片查看、处理、解决告警。您可以在控制台的钉群中配置钉钉群的机器人。
告警自动解决
- 当告警的事件都已恢复时,告警会自动设置为已解决。
故障
- 业务的规则会引起监控数据异常,监控工具检测到异常后会生成事件。
H
环比上升 / 下降%
- 若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为前2N分钟到前N分钟的数据, 环比为β与α做比较。
J
集成
大多数监控产品可以通过API方式集成到告警管理中。
L
联系人
- 处理告警的运维人员,联系人可以通过钉钉查看、处理和解决告警。
R
认领告警
- 如果联系人想将自己设置为尚未解决的告警的处理人,则可以认领该告警。
S
升级超时
- 升级超时后,告警管理会将未确认或未解决的告警通知升级策略的联系人。默认升级超时设置为10分钟,您也可以将其设置在90分钟内的任一时间。
升级策略
- 在告警升级超时,告警管理会依次通知升级规则定义的不同批次的联系人。升级策略可以添加到特定的通知策略中。
事件
集成的监控产品会将事件发送到告警管理中。除非事件被抑制,否则每个事件都会有对应告警。
事件分组
- 事件管理将多个事件汇总到单一告警中,用来减少需要联系人处理的告警。同时汇总关键信息,降低通知疲劳。
事件静默
- 不重要的事件可以将其静默,被静默的事件没有对应的告警。
事件去重
当集成将事件发送到告警管理时,重复的事件会合并到一个事件中,仅统计重复次数。
事件自动恢复
- 您可以设置在指定的时间后自动恢复事件。此时间过后,事件将自动被认定为已解决。事件自动恢复时间默认为5分钟。
T
同比上升 / 下降%(与上小时)
- 若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为上小时最近N分钟的数据,与上小时同比为β与α做比较。
同比上升 / 下降%(与昨日)
- 若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为昨日同一时刻最近N分钟的数据,与昨日同比为β与α做比较。
通知
- 触发告警后,告警管理会立即发送通知给联系人。通知消息中包含触发的告警对象和告警标题。通知将通过短信、邮件、微信、钉群、WebHook等方式发送。
通知策略
- 通知策略确定了如何将事件汇总到单一告警中,以及如何将分配的告警通知发送给联系人。您可以通过设置电话,短信,邮件或钉群等方式,将需要解决或需要联系人知晓的告警1分钟内通知到他。
Y
用户
指阿里云用户和RAM用户,用户可以通过SAE控制台实现以下操作:
- 创建、编辑、修改通知策略。
- 创建、编辑、修改升级策略。
- 创建、编辑、修改集成。
- 查看、处理、解决告警。