问题现象

设置了 ARMS 报警规则,但无法收到报警消息。

可能原因

除默认紧急报警规则外,ARMS 报警规则均为每分钟检测并判断一次报警规则,从而生成报警事件。报警事件分为已触发与未触发两种状态,只有报警事件处于已触发状态,并且对应的报警规则未处于静默期时,报警消息才会被发送。当您设置了报警规则后,却无法收到报警消息时,可以按照以下解决方案进行排查处理。

解决方案

  1. 登录 ARMS 控制台
  2. 在左侧导航栏选择报警管理 > 报警策略管理,在报警规则页签的搜索框中输入需查看的报警名称,并单击搜索,查看右侧状态列的状态。
    tab_alarm_rule
    • 如果状态为已停止,则单击右侧操作列的启动,并在确定对话框中单击启动。重新启动该报警规则后,如果仍无法收到报警消息,则继续执行步骤 3
    • 如果状态为运行中,则执行步骤 3
  3. 单击右侧操作列的报警历史,在报警历史页签下的报警事件历史页签中,在触发状态列查看报警事件的触发状态。
    tab_alarm_history
    说明 如果触发状态列的触发状态为绿色,则表示未触发;如果为红色,则表示已触发。
    • 如果触发状态为未触发,则查看报警内容列显示的报警规则判断条件的阈值是否有误。如果阈值有误,则在报警规则页签找到需修改的报警规则,并单击右侧操作列的编辑,在编辑报警对话框重新设置报警规则判断条件的阈值。
    • 如果触发状态为已触发,则执行步骤 4
    • 如果报警事件历史无记录,则执行步骤 6
  4. 报警历史页签单击报警发送历史页签,查看是否有报警发送历史记录。
    tab_alarm_send_history
    • 如果报警发送历史有记录,但仍然没有收到报警消息,则可能是受到限制:每个手机联系人每天最多只能接收到 100 条短信、每个邮箱联系人每天最多只能收到 50 封邮件。超过限制额度之后,则无法再收到报警消息。
    • 如果报警发送历史无记录,则可能是由于报警处于静默期,请继续执行步骤 5
  5. 报警发送历史页签,单击右上角显示的时间区间,在弹出的列表中选择最近 24 小时,查看最近 24 小时内是否有报警发送历史记录。
    • 如果报警发送历史有记录,则说明报警正处于静默期,您需要在报警规则页签找到需修改的报警规则,并单击右侧操作列的编辑,在编辑报警对话框的高级设置中,关闭报警静默期开关
      说明 打开报警静默期开关后,如果报警一直处于触发状态,则只会在发送第一条报警消息后的 24 小时之后再次发送消息。关闭此开关后,ARMS 将每分钟发送一次报警消息。
    • 如果报警发送历史仍然没有记录,则可能是没有选择正确的报警消息通知方式,或者联系人配置有误。
      • 您需要在报警规则页签找到需修改的报警规则,并单击右侧操作列的编辑,在编辑报警对话框中勾选正确的通知方式。
      • 或者在左侧导航栏选择报警管理 > 联系人管理,在联系人管理页签检查联系人的手机号、邮箱、钉钉机器人的 URL 以及联系人对应的联系组是否配置正确。如果配置有误,请重新配置。
  6. 在左侧导航栏选择应用监控 > 应用列表,在应用列表页面检查报警规则关联的应用是否有数据。
    • 如果应用无数据,则默认应用未接入 ARMS,因此不会产生报警事件。您需要检查并解决应用无数据的问题。
    • 如果应用有数据,但报警规则配置的某一维度无数据,例如某个前端监控报警的类型为页面指标,维度为某个具体的页面名称,此时报警无数据,可能是由于维度值填写有误。您需要在报警规则页签找到需修改的报警规则,并单击右侧操作列的编辑,在编辑报警对话框中,将维度设置为遍历,然后再参考遍历情况下的报警事件历史页签中的报警内容,重新设置维度值。
  7. 如果按照以上操作步骤排查后,仍然无法收到报警消息,请联系 ARMS 钉钉服务账号 arms160804。