文档

报警通知合并

更新时间:

当同一个阿里云账号的多个资源在同一报警规则和周期内同时报警时,为减少报警资源的消耗和冗余信息的干扰,云监控在第一条报警通知发出后,以一分钟为周期对后续的报警通知进行合并发送。本文将介绍不同报警规则下的报警通知合并示例。

报警通知方式

报警通知合并影响的报警通知方式包括:电话、短信、邮件和钉钉机器人。报警通知合并后,不同报警通知方式的差异如下:

  • 电话和短信仅展示第一条资源的详细信息,其他资源的详细信息需要通过短信中的链接跳转云监控控制台查看。

  • 邮件和钉钉机器人仅展示前20条资源的详细信息。

通过应用分组设置阈值报警规则

示例:创建报警规则test_cpu_alarm,对应用分组testGroup中的云服务器ECS实例的监控指标(Agent)Host.cpu.total(推荐)进行监控,并将报警通知以短信、邮件和钉钉机器人的方式发送给报警联系人组Alarm_Group。应用分组testGroup和报警联系人组Alarm_Group需要您提前创建。

  1. 登录云监控控制台

  2. 在左侧导航栏,单击应用分组

  3. 应用分组页签,单击应用分组名称testGroup

  4. 在目标应用分组的左侧导航栏,单击报警规则

  5. 单击创建报警规则

  6. 创建报警规则面板,选择产品云服务器ECS

  7. 单击添加规则,设置云服务器ECS实例的报警规则,然后单击确定

    参数

    示例

    规则名称

    test_cpu_alarm

    监控指标

    (Agent)Host.cpu.total(推荐)

    阈值

    >=10%

    报警级别

    Warning

    报警通知方式

    短信+邮件+WebHook

  8. 选择报警联系人组Alarm_Group,单击确定

    报警规则设置完毕后,如果多个资源在同一周期内满足报警规则,报警信息会自动合并。不同报警通知方式的通知信息如下:

    • 短信

      • 第一条报警通知是应用分组中第一条资源的报警信息。短信1

      • 一分钟后,云监控将对其他相同时间段内多个资源的报警信息进行合并发送。短信只展示第一条资源的详细信息,其他资源均需要登录云监控控制台查看。短信2

    • 邮件

      • 第一条报警通知是应用分组中第一条资源的报警信息。邮件1

      • 一分钟后,云监控将对其他相同时间段内多个资源的报警信息进行合并发送。邮件只展示前20条资源的详细信息。邮件2

    • 钉钉机器人

      • 第一条报警通知是应用分组中第一条资源的报警信息。钉钉机器人1

      • 一分钟后,云监控将对其他相同时间段内多个资源的报警信息进行合并发送。钉钉机器人只展示前20条资源的详细信息。钉钉机器人2

通过报警服务为全部资源设置阈值报警规则

示例:创建报警规则test_cpu_alarm,对云服务器ECS中全部资源的监控指标(Agent)Host.cpu.total(推荐)进行监控,并将报警通知以短信、邮件和钉钉机器人的方式发送给报警联系人组Alarm_Group

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则

  3. 报警规则页面,单击创建报警规则

  4. 创建报警规则面板,为云服务器ECS全部资源的指定监控指标设置报警规则和通知方式。

    参数

    示例

    产品

    云服务器ECS

    资源范围

    全部资源

    规则名称

    test_cpu_alarm

    监控指标

    (Agent)Host.cpu.total(推荐)

    周期

    1分钟

    阈值

    最大值>=10%

    报警持续周期

    5个

    报警级别

    Warning

    报警通知方式

    短信+邮件+WebHook

    报警联系人组

    Alarm_Group

  5. 单击确认

    报警规则设置完毕后,如果多个资源在同一周期内满足报警规则,报警信息会自动合并。不同报警通知方式的通知信息如下:

    • 短信

      • 第一条报警通知是应用分组中第一条资源的报警信息。短信1

      • 一分钟后,云监控将对其他相同时间段内多个资源的报警信息进行合并发送。短信只展示第一条资源的详细信息,其他资源均需要登录云监控控制台查看。短信2

    • 邮件

      • 第一条报警通知是应用分组中第一条资源的报警信息。邮件1

      • 一分钟后,云监控将对其他相同时间段内多个资源的报警信息进行合并发送。邮件只展示前20条资源的详细信息。邮件2

    • 钉钉机器人

      • 第一条报警通知是应用分组中第一条资源的报警信息。钉钉机器人1

      • 一分钟后,云监控将对其他相同时间段内多个资源的报警信息进行合并发送。钉钉机器人只展示前20条资源的详细信息。钉钉机器人2

通过报警服务为目标实例设置阈值报警规则

示例:创建报警规则test_node_alert,对云数据库Redis集群版中目标实例r-bp1vfufnlnkt2c****-name(r-bp1vfufnlnkt2c****)的监控指标Proxy单个请求的平均字节数进行监控,并将报警通知以短信、邮件和钉钉机器人的方式发送给报警联系人组Alarm_Group

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则

  3. 报警规则页面,单击创建报警规则

  4. 创建报警规则面板,为云数据库Redis集群版的目标实例的指定监控指标设置报警规则和通知方式。

    参数

    示例

    产品

    Redis集群版

    资源范围

    实例

    地域

    华东1(杭州)

    实例

    r-bp1vfufnlnkt2c****-name(r-bp1vfufnlnkt2c****)

    规则名称

    test_node_alert

    监控指标

    Proxy单个请求的平均字节数

    周期

    1分钟

    阈值

    平均值>=0 Byte

    报警持续周期

    5个

    报警级别

    Warning

    报警通知方式

    短信+邮件+钉钉机器人

    报警联系人组

    Alarm_Group

  5. 单击确认

    报警规则设置完毕后,如果多个资源在同一周期内满足报警规则,报警信息会自动合并。不同报警通知方式的通知信息如下:

    • 短信

      • 第一条报警通知是目标实例全部节点中的第一个节点的报警信息。Redis集群版短信1

      • 一分钟后,云监控将对其他相同时间段内目标实例的多个节点的报警信息进行合并发送。短信只展示第一个节点的详细信息,其他节点均需要登录云监控控制台查看。Redis集群版短信2

    • 邮件

      • 第一条报警通知是目标实例全部节点中的第一个节点的报警信息。Redis集群版邮件1

      • 一分钟后,云监控将对其他相同时间段内目标实例的多个节点的报警信息进行合并发送。邮件只展示前20个节点的详细信息。Redis集群版邮件2

    • 钉钉机器人

      • 第一条报警通知是目标实例全部节点中的第一个节点的报警信息。Redis集群版钉钉机器人1

      • 一分钟后,云监控将对其他相同时间段内目标实例的多个节点的报警信息进行合并发送。钉钉机器人只展示前20个节点的详细信息。Redis集群版钉钉机器人2

通过事件监控设置事件报警规则

示例:创建事件报警规则test_config_alarm,对云数据库Redis集群版中目标实例r-bp1vfufnlnkt2c****-name(r-bp1vfufnlnkt2c****)的监控指标Proxy单个请求的平均字节数进行监控,并将报警通知以邮件和钉钉机器人的方式发送给报警联系人组Alarm_Group。报警联系人组Alarm_Group需要您提前创建。

  1. 登录云监控控制台

  2. 在左侧导航栏,选择事件中心 > 系统事件

  3. 事件监控页签,单击另存为报警

  4. 创建/修改事件报警面板,为配置审计的系统事件设置报警规则和通知方式。

    参数

    示例

    报警规则名称

    test_config_alarm

    产品类型

    配置审计

    事件类型

    Notification

    事件等级

    信息

    事件名称

    配置项变更

    资源范围

    全部资源

    联系人组

    Alarm_Group

    通知方式

    Info(邮件+钉钉机器人)

  5. 单击确定

    报警规则设置完毕后,如果多个资源在同一周期内满足报警规则,报警信息会自动合并。不同报警通知方式的通知信息如下:

    • 邮件

      • 第一条报警通知是配置审计触发的第一条事件的报警信息。邮件1

      • 一分钟后,云监控将对其他相同时间段内配置审计触发的多个事件的报警信息进行合并发送。邮件只展示前20条事件的报警信息。邮件2

    • 钉钉机器人

      • 第一条报警通知是配置审计触发的第一条事件的报警信息。钉钉机器人1

      • 一分钟后,云监控将对其他相同时间段内配置审计触发的多个事件的报警信息进行合并发送。钉钉机器人只展示前20条事件的报警信息。钉钉机器人2