通过创建报警,您可以制定针对特定监控对象的报警规则。当规则被触发时,系统会以您指定的报警方式向报警联系人分组发送报警信息,以提醒您采取必要的问题解决措施。

前提条件

创建联系人分组。创建报警时,仅可将联系人分组设为报警的通知对象。

背景信息

默认报警条件:

  • 为避免您在短时间内收到大量报警信息,系统24小时内对于持续的重复报警信息仅发送一条消息。
  • 如果5分钟内没有重复报警,则会发送恢复邮件,通知数据恢复正常。
  • 发送恢复邮件后,报警的状态会重置。如果该报警再次出现,会被视为新报警。
  • 每个手机联系人每天最多只能接收到100条短信。超过限制额度之后,则无法再收到报警消息。
  • 每个邮箱联系人每天最多只能收到50封邮件。超过限制额度之后,则无法再收到报警消息。

报警控件本质是数据集的数据展示方式,所以在创建报警控件的同时,会创建一个数据集来存储报警控件的底层数据。

说明 新建报警大约在10分钟内生效,报警判断会存在1~3分钟的延时。

创建应用监控报警

若需为应用监控任务创建一个JVM-GC次数同比报警,具体操作步骤如下:

  1. 登录ARMS控制台
  2. 在左侧导航栏中选择报警管理 > 报警策略管理
  3. 报警策略管理页面的右上角单击创建报警 > 应用监控报警
  4. 创建报警对话框中输入所有必填信息,完成后单击保存
    Application Monitoring Alarm

    在创建报警对话框中配置如下参数:

    1. 填写报警名称,例如:JVM-GC次数同比报警。
    2. 应用站点列表中选择应用,在应用组列表中选择应用组。
    3. 类型列表中选择监控指标的类型,例如:JVM监控
    4. 设置维度为遍历
    5. 设置报警规则。
      1. 单击同时满足下述规则
      2. 编辑报警规则,例如:N=5时JVM_FullGC次数的平均值与上小时同比上升100% 时则报警。
        说明 若需设置多条报警规则,单击报警规则右侧的号,即可编辑第二条报警规则。
    6. 选中通知方式。例如:选中邮件。
    7. 设置通知对象。在全部联系组框中单击联系人分组的名称,该联系人分组出现在已选联系组框中,则设置成功。

创建前端监控报警

若需为前端监控任务创建一个页面指标JS错误率和JS错误数报警,具体操作步骤如下:

  1. 在左侧导航栏中选择报警管理 > 报警策略管理
  2. 报警策略管理页面的右上角单击创建报警 > 前端监控报警
  3. 在弹出的创建报警对话框中输入所有必填信息,完成后单击保存
    Browser Monitoring Alarm

    在创建报警对话框中配置如下参数:

    1. 填写报警名称,例如:页面指标报警。
    2. 应用站点栏选择您已创建的监控任务。
    3. 类型栏选择监控指标的类型,例如:页面指标
    4. 设置维度为遍历
    5. 设置报警规则。
      1. 选中同时满足下述规则
      2. 编辑报警规则,例如:N=10时JS错误率的平均值大于等于20时则报警。
      3. 单击报警规则右侧的号,编辑第二条报警规则,例如:N=10时JS错误数的总和大于等于20时则报警。
    6. 选中通知方式,例如:选中短信和邮件。
    7. 设置通知对象。在全部联系组中单击联系人分组的名称,该联系人分组出现在已选联系组中,则设置成功。

创建自定义监控报警

若需为自定义监控任务创建一个用户接入报警,具体操作步骤如下:

  1. 在左侧导航栏中选择报警管理 > 报警策略管理
  2. 报警策略管理页面的右上角单击创建报警 > 自定义监控报警
  3. 创建报警对话框中输入所有必填信息,完成后单击保存
    Custom Monitoring Alarm

    在创建报警对话框中配置如下参数:

    1. 填写报警名称,例如:用户接入通知。
    2. 选择类型为基于已有下钻数据集创建报警
    3. 定义报警变量。为变量a选择一个数据集,设置下钻维度为遍历。
      说明 若您想定义多个报警变量,您可以单击报警变量定义项右侧的号,在弹出的编辑框中定义变量b
    4. 设置报警规则。
      1. 选中同时满足下述规则
      2. 编辑报警规则,例如:N=3时用户创建Agent数的平均值大于等于0时则报警。
        说明 您的报警规则中还可以包含简单复合指标:例如N=3时,(数据集A/数据集B)的平均值大于等于5则报警。
    5. 选中通知方式,例如:选中邮件。
    6. 设置通知对象。在全部联系组中单击联系人分组的名称,该联系人分组出现在已选联系组中,即设置成功。

创建Prometheus监控报警

若需为Prometheus监控任务创建报警,例如网络接收压力报警,具体操作步骤如下:

  1. 报警创建提供两个入口,您可根据需要自行选择其中一个入口进入创建报警环节:
    • ARMS Prometheus Grafana大盘New DashBoard页面,单击左侧的 图标,跳转至ARMS Prometheus 报警规则和历史页面,在右上角单击创建报警 > Prometheus
    • 在控制台左侧导航栏中选择报警管理 > 报警策略管理,进入报警规则和历史页面,在右上角单击创建报警 > Prometheus
  2. 创建报警对话框中输入所有必填信息,完成后单击保存
    Prometheus Monitoring Alarm

    在创建报警对话框中配置如下参数:

    1. 填写报警名称,例如:网络接收压力报警。
    2. 选择要创建报警的Prometheus监控对应的集群
    3. 选择类型grafana
    4. 选择要监控的具体大盘图表
    5. 设置报警规则。
      1. 选中同时满足下述规则
      2. 编辑报警规则,例如:N=5时网络接收数据字节(MB)的平均值大于等于3时则报警。
        说明 一个Grafana图表中可能有A、B、C等多条曲线数据,您可根据您的需求设置监控其中的一条线。
      3. PromQL输入框中编辑或重新输入PromQL语句。
        注意 PromQL语句中包含的$符号会导致报错,您需要删除包含$符号的语句中=左右两边的参数及=。例如:将sum (rate (container_network_receive_bytes_total{instance=~"^$HostIp.*"}[1m]))修改为sum (rate (container_network_receive_bytes_total[1m]))
    6. 选中通知方式,例如:选中短信。
    7. 设置通知对象。在全部联系组中单击联系人分组的名称,该联系人分组出现在已选联系组中,即设置成功。

通用基础字段含义

创建报警对话框的基础字段含义见下表。

ARMS-创建报警对话框
字段 含义 说明
报警名称 自定义的报名规则名称。 名称只能包含数字、字母、空格、中文、“-”与“_”。
应用站点 已创建的监控任务。 在下拉菜单中选择。
应用组 应用的分组。 该字段仅对企业级分布式应用服务EDAS有效,在其他产品中可忽略。
类型 报警指标的类型。

三种报警的报警指标类型各不相同:

  • 应用监控报警:JVM监控、异常接口调用、应用调用类型统计、主机监控、应用调用统计和数据库指标。
  • 前端监控报警:页面指标、API指标、自定义指标和页面API指标。
  • 自定义监控报警:基于已有下钻数据集创建报警和基于已有通用数据集创建报警。
维度 配置报警指标(数据集)的维度,可选择为:无、= 、遍历。
  • 配置为无:报警内容中透出这个维度所有数值的和。
  • 配置为 = :具体内容需手动填写。
  • 配置为遍历:会在报警内容中透出实际触发报警的维度内容。
报警规则和历史 多条报警规则的逻辑运算结果。
  • 同时满足下述规则:表示所有规则是逻辑“与”的关系。
  • 满足下述一条规则:表示所有规则是逻辑“或”的关系。
最近N分钟 报警判断最近N分钟内数据结果是否达到触发条件。 N的范围为:1~3600分钟。
通知方式 支持短、邮件和钉钉机器人三种方式。 可选中多种方式。若需设置钉钉机器人报警请参见。设置钉钉机器人报警
通知对象 要接收报警通知的对象。 必须是联系人分组。
报警静默期开关 可打开或关闭,默认为打开状态。
  • 打开报警静默期开关:若数据一直处于触发状态,首次触发报警后,24小时后才会发送第二次报警信息。当数据恢复正常,会收到数据恢复通知并解除报警。若数据再次触发报警,则会再次发送报警信息。
  • 关闭报警静默期开关:若报警连续触发,将会每分钟发送一次报警信息。
报警级别 包括警告、错误和致命。 无。
生效时间 一天之中可触发报警的时间段。 无。
通知时间 一天之中可发送报警通知的时间段。此时间范围外将不发送报警通知,但仍会有报警事件记录。 查看报警事件记录请参见管理报警
通知内容 自定义的报警通知内容。 您可以编辑默认模板。在模板中,除$报警名称、$筛选、 $报警时间和 $报警内容等4个变量(暂不支持其他变量)为固定搭配,其余内容均可自定义。

通用复杂字段含义:环比与同比

  • 环比上升%或环比下降% :若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为前2N分钟到前N分钟的数据, 环比为β与α做比较。
    Day-on-day Growth or Decline
  • 与上小时同比上升%或与上小时同比下降%:若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为上小时最近N分钟的数据,与上小时同比为β与α做比较。
    Growth or Decline
  • 与昨日同比上升%或与昨日同比上升下降%:若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为昨日同一时刻最近N分钟的数据,与昨日同比为β与α做比较。
    Growth or Decline

通用复杂字段含义:报警数据修订策略

报警数据修订策略可选择为补零、补一或补零Null(默认)。此功能一般用于无数据、复合指标和环比同比等异常的数据修复。

  • 补零: 将被判断的数值修复为0。
  • 补一: 将被判断的数值修复为1。
  • 补零Null: 不会触发报警。

应用场景:

  • 异常情况一:无数据

    用户A想利用报警功能监控页面访问量。创建报警时,选择前端监控报警,设置报警规则为N=5时页面访问量的总和小于等于10则报警。若该页面一直没有被访问,则没有数据上报,不会发送报警。为解决此类问题,可将报警数据修订策略选中为补零,将没有收到数据视为收到零条数据,符合报警规则,即可发送报警。

  • 异常情况二:复合指标异常

    用户B想利用报警功能监控商品的实时单价。创建报警时,选择自定义监控报警,设置变量a的数据集为当前总价,变量b的数据集为当前商品总数,报警规则为N=3时 (当前总价)/(当前商品总数)的最小值小于等于10则报警。若当前商品总数为0时,复合指标(当前总价)/(当前商品总数)的值不存在,则不会发送报警。为解决此类问题,可将报警数据修订策略选中为补零,将复合指标(当前总价)/(当前商品总数)的值视为0,符合报警规则,即可发送报警。

  • 异常情况三:指标环比、同比异常

    用户C想利用报警功能监控节点机用户使用CPU百分比。创建报警时,选择应用监控,设置报警规则为N=3时节点机用户使用CPU百分比的平均值环比下降100% 则报警。若最近N分钟用户的CPU故障无法工作,即α无法获取,导致环比结果不存在,则不会发送报警。为解决此类问题,可将报警数据修订策略选中为补一,将环比结果视为下降100%,符合报警规则,即可发送报警。