名词解释

本文列出了SAE告警管理的主要术语。

B | C | G | H | J | L | R | S | T | Y

B

  • 补零、补一、补Null

    • 报警数据修订策略可选择为补零、补一或补Null(默认)。此功能一般用于无数据、复合指标和环比同比等异常的数据修复。
      • 补零: 将被判断的数值修复为0。
      • 补一: 将被判断的数值修复为1。
      • 补Null: 不会触发报警。
      应用场景:
      • 异常情况一:无数据

        用户A想利用报警功能监控页面访问量。创建报警时,选择前端监控报警,设置报警规则为N=5时页面访问量的总和小于等于10则报警。若该页面一直没有被访问,则没有数据上报,不会发送报警。为解决此类问题,可将报警数据修订策略勾选为补零,将没有收到数据视为收到零条数据,符合报警规则,即可发送报警。

      • 异常情况二:复合指标异常

        用户B想利用报警功能监控商品的实时单价。创建报警时,选择自定义监控报警,设置变量a的数据集为当前总价,变量b的数据集为当前商品总数,报警规则为N=3时 (当前总价)/(当前商品总数)的最小值小于等于10则报警。若当前商品总数为0时,复合指标(当前总价)/(当前商品总数)的值不存在,则不会发送报警。为解决此类问题,可将报警数据修订策略勾选为补零,将复合指标(当前总价)/(当前商品总数)的值视为0,符合报警规则,即可发送报警。

      • 异常情况三:指标环比、同比异常

        用户C想利用报警功能监控节点机用户使用CPU百分比。创建报警时,选择应用监控,设置报警规则为N=3时节点机用户使用CPU百分比的平均值环比下降100%则报警。若最近N分钟用户的CPU故障无法工作,即α无法获取,导致环比结果不存在,则不会发送报警。为解决此类问题,可将报警数据修订策略勾选为补一,将环比结果视为下降100%,符合报警规则,即可发送报警。

[回到顶部]

C

  • 重复升级规则

    • 如果升级策略判断过所有升级规则后,仍未解决告警,则将重新开始升级判断。默认为重复1次,您也可以将其调整为9以内的其他次数。

[回到顶部]

G

  • 告警

    • 指需要通知联系人去解决的告警。只有通过通知策略触发的需要解决的事件,才会创建告警。
  • 告警管理

    • 指整个告警管理功能。
  • 告警卡片

    • 钉钉群的机器人通过卡片的形式向钉钉群发送告警。联系人可以通过卡片查看、处理、解决告警。您可以在控制台的钉群中配置钉钉群的机器人。
  • 告警自动解决

    • 当告警的事件都已恢复时,告警会自动设置为已解决。
  • 故障

    • 业务的规则会引起监控数据异常,监控工具检测到异常后会生成事件。

[回到顶部]

H

  • 环比上升 / 下降%

    • 若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为前2N分钟到前N分钟的数据, 环比为β与α做比较。Day-on-day Growth or Decline

[回到顶部]

J

  • 集成

    • 大多数监控产品可以通过API方式集成到告警管理中。

[回到顶部]

L

  • 联系人

    • 处理告警的运维人员,联系人可以通过钉钉查看、处理和解决告警。

[回到顶部]

R

  • 认领告警

    • 如果联系人想将自己设置为尚未解决的告警的处理人,则可以认领该告警。

[回到顶部]

S

  • 升级超时

    • 升级超时后,告警管理会将未确认或未解决的告警通知升级策略的联系人。默认升级超时设置为10分钟,您也可以将其设置在90分钟内的任一时间。
  • 升级策略

    • 在告警升级超时,告警管理会依次通知升级规则定义的不同批次的联系人。升级策略可以添加到特定的通知策略中。
  • 事件

    • 集成的监控产品会将事件发送到告警管理中。除非事件被抑制,否则每个事件都会有对应告警。

  • 事件分组

    • 事件管理将多个事件汇总到单一告警中,用来减少需要联系人处理的告警。同时汇总关键信息,降低通知疲劳。
  • 事件静默

    • 不重要的事件可以将其静默,被静默的事件没有对应的告警。
  • 事件去重

    • 当集成将事件发送到告警管理时,重复的事件会合并到一个事件中,仅统计重复次数。

  • 事件自动恢复

    • 您可以设置在指定的时间后自动恢复事件。此时间过后,事件将自动被认定为已解决。事件自动恢复时间默认为5分钟。

[回到顶部]

T

  • 同比上升 / 下降%(与上小时)

    • 若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为上小时最近N分钟的数据,与上小时同比为β与α做比较。Growth or Decline
  • 同比上升 / 下降%(与昨日)

    • 若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为昨日同一时刻最近N分钟的数据,与昨日同比为β与α做比较。Growth or Decline
  • 通知

    • 触发告警后,告警管理会立即发送通知给联系人。通知消息中包含触发的告警对象和告警标题。通知将通过短信、邮件、微信、钉群、WebHook等方式发送。
  • 通知策略

    • 通知策略确定了如何将事件汇总到单一告警中,以及如何将分配的告警通知发送给联系人。您可以通过设置电话,短信,邮件或钉群等方式,将需要解决或需要联系人知晓的告警1分钟内通知到他。

[回到顶部]

Y

  • 用户

    • 指阿里云用户和RAM用户,用户可以通过SAE控制台实现以下操作:

      • 创建、编辑、修改通知策略。
      • 创建、编辑、修改升级策略。
      • 创建、编辑、修改集成。
      • 查看、处理、解决告警。

[回到顶部]