创建报警

通过创建报警,您可以制定针对特定监控对象的报警规则。当规则被触发时,系统会以您指定的报警方式向报警联系人分组发送报警信息,以提醒您采取必要的问题解决措施。

前提条件

说明 目前公有云已不支持使用旧版报警功能,您可以使用新版告警管理功能创建告警规则。更多信息,请参见以下链接。

创建联系人:仅可将联系人分组设为报警的通知对象。

背景信息

默认报警条件:

  • 为避免您在短时间内收到大量报警信息,系统24小时内对于持续的重复报警信息仅发送一条消息。

  • 如果5分钟内没有重复报警,则会发送恢复邮件,通知数据恢复正常。

  • 发送恢复邮件后,报警的状态会重置。如果该报警再次出现,会被视为新报警。

报警控件本质是数据集的数据展示方式,所以在创建报警控件的同时,会创建一个数据集来存储报警控件的底层数据。

说明

新建报警大约在10分钟内生效,报警判断会存在1~3分钟的延时。

创建报警

若需为应用监控任务创建一个JVM-GC次数同比报警,具体操作步骤如下:

  1. 登录可观测链路 OpenTelemetry 版控制台

  2. 在左侧导航栏中选择报警管理 > 报警规则和历史

  3. 报警规则和历史页面的右上角单击创建报警

  4. 创建报警对话框中输入所有必填信息,完成后单击保存

    1. 填写报警名称,例如:应用调用统计。

    2. 应用站点列表中选择应用。

    3. 类型列表中选择监控指标的类型,例如:应用调用统计

    4. 设置维度遍历

    5. 设置报警规则和历史同时满足下述规则

    6. 编辑最近N分钟设置报警规则,例如:N=5时调用错误率平均值大于等于100%时则报警。

      说明

      若需设置多条报警规则,单击最近N分钟右侧的加号图标图标,即可编辑第二条报警规则。

    7. 选择通知方式。例如:邮件。

    8. 设置通知对象。在全部联系组框中单击联系人分组的名称,该联系人分组出现在已选联系组框中,则设置成功。

    Application Monitoring Alarm链路追踪报警

通用基础字段含义

创建报警对话框的基础字段含义见下表。

创建报警对话框

字段

含义

说明

应用站点

已创建的监控任务。

在下拉菜单中选择。

报警维度

配置报警指标(数据集)的维度,可选择为:无、= 、遍历。

  • 配置为无:报警内容中透出这个维度所有数值的和。

  • 配置为= :具体内容需手动填写。

  • 配置为遍历:会在报警内容中透出实际触发报警的维度内容。

最近N分钟

报警判断最近N分钟内数据结果是否达到触发条件。

N的范围为:1~60分钟。

通知方式

支持邮件、短信、钉钉机器人和Webhook四种方式。

可勾选多种方式。若需设置钉钉机器人报警,请参见设置钉钉机器人报警

报警静默期开关

可选择为开启或关闭,默认为开启状态。

  • 开启报警静默期开关:若数据一直处于触发状态,首次触发报警后,24小时后才会发送第二次报警信息。当数据恢复正常,会收到数据恢复通知并解除报警。若数据再次触发报警,则会再次发送报警信息。

  • 关闭报警静默期开关:若报警连续触发,将会每分钟发送一次报警信息。

报警级别

包括警告、错误和致命。

通知时间

报警发送时的通知时间。此时间范围外将不发送报警通知,但仍会有报警事件记录。

查看报警事件记录,请参见管理报警

通知内容

自定义的报警通知内容。

您可以编辑默认模板。在模板中,除$报警名称、$筛选、 $报警时间和$报警内容等4个变量(暂不支持其他变量)为固定搭配,其余内容均可自定义。

通用复杂字段含义:环比与同比

  • 环比上升 / 下降%:若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为前2N分钟到前N分钟的数据, 环比为β与α做比较。Day-on-day Growth or Decline

  • 与上小时同比上升 / 下降%:若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为上小时最近N分钟的数据,与上小时同比为β与α做比较。Growth or Decline

  • 与昨日同比上升 / 下降%:若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为昨日同一时刻最近N分钟的数据,与昨日同比为β与α做比较。Growth or Decline

通用复杂字段含义:报警数据修订策略

报警数据修订策略可选择为补零、补一或补零Null(默认)。此功能一般用于无数据、复合指标和环比同比等异常的数据修复。

  • 补零: 将被判断的数值修复为0。

  • 补一: 将被判断的数值修复为1。

  • 补零Null: 不会触发报警。

应用场景:

  • 异常情况一:无数据

    用户A想利用报警功能监控页面访问量。创建报警时,选择前端监控报警,设置报警规则为N=5时页面访问量的总和小于等于10则报警。若该页面一直没有被访问,则没有数据上报,不会发送报警。为解决此类问题,可将报警数据修订策略勾选为补零,将没有收到数据视为收到零条数据,符合报警规则,即可发送报警。

  • 异常情况二:指标环比、同比异常

    用户C想利用报警功能监控节点机用户使用CPU百分比。创建报警时,选择应用监控,设置报警规则为N=3时节点机用户使用CPU百分比的平均值环比下降100%则报警。若最近N分钟用户的CPU故障无法工作,即α无法获取,导致环比结果不存在,则不会发送报警。为解决此类问题,可将报警数据修订策略勾选为补一,将环比结果视为下降100%,符合报警规则,即可发送报警。

后续步骤

您可以在管理报警系统中查询和删除报警记录。