报警服务

CADT智能监控支持报警服务,当资源的监控指标达到报警条件时,可以在监控大屏上看到报警信息,并在拓扑图上标识告警资源,帮助您及时得知异常监控数据,便于快速处理。

前提条件

创建报警联系人和报警联系组

报警联系人用于接收报警信息,报警联系组是一组报警联系人,可以包含一个或多个报警联系人。在创建报警规则前,需要先创建报警联系人和报警联系组。

创建报警联系人

报警联系人用于接收报警信息,同一个报警联系人,可以加入多个报警联系组。

  1. 登录CADT控制台,打开智能监控 > 报警服务image

  2. 在左侧导航栏,选择报警联系人,单击新建联系人

    说明

    CADT默认将您的阿里云账号添加为报警联系人,并自动为其创建报警联系组。imageimage..png

    image

  3. 新建联系人面板,按标签顺序填写报警联系人的姓名手机号码邮箱旺旺钉钉企微飞书Webhook地址,填写描述信息,并单击确定image

  4. 报警联系人邮箱和手机号码激活。

    如果您设置了报警联系人的邮箱和手机号码,默认处于等待激活状态。报警联系人需要根据邮件和短消息中的激活链接,在24小时内进行激活,否则无法收到报警通知。激活后,您可以在报警联系人列表中看到目标报警联系人的手机号码和邮箱。

    image..png激活后可以看到如下图所示信息:image..png

创建报警联系组

报警联系组是一组报警联系人,可以包含一个或多个报警联系人。报警服务默认将您的阿里云账号添加为报警联系人,并自动为其创建报警联系组。

  1. 报警联系人页面的报警联系组页签,单击新建联系组image

  2. 新建联系组面板,填写报警联系组的名称和描述信息,并选择报警联系人image

  3. 报警联系组创建成功后,如下图所示。image

创建报警规则

报警规则用于监控云产品资源使用情况,当资源的监控指标达到报警条件时,可以在监控大屏上看到报警信息,并在拓扑图上标识告警资源,

  1. 在报警规则页面,单击创建报警规则image..png

  2. 创建报警规则面板,设置报警规则相关参数。

    • 单指标类型:一条报警规则仅作用于一个监控指标。

      参数

      说明

      产品

      CADT报警服务支持的云产品,例如:云服务器ECS。

      说明

      支持关键字搜索快速找到所需产品。

      指标类型

      单指标:一条报警规则仅作用于一个监控指标。

      规则名称

      阈值报警规则的名称。

      监控指标

      选择需要监控的云产品指标。

      阈值及报警级别

      报警规则的报警级别、报警条件和报警阈值。

      • 报警级别及通知方式:

        • 普通(Info):邮件+WebHook

        • 警告(Warn):短信+邮件+WebHook

        • 紧急(Critical):电话+短信+邮件+WebHook

      • 报警条件和报警阈值:发送报警通知需要监控指标达到报警阈值的次数,取值:连续1个周期、连续3个周期、连续5个周期、连续10个周期、连续15个周期、连续30个周期、连续60个周期、连续70个周期、连续90个周期、连续120个周期和连续180个周期。

      报警联系组

      发送报警的联系组。

      报警通知会发送给该报警联系人组中的报警联系人。报警联系组是一组报警联系人,可以包含一个或多个报警联系人。

    • 多指标类型:一条报警规则作用于多个监控指标。

      参数

      说明

      产品

      CADT报警服务支持的云产品名称,例如:云服务器ECS。支持关键字搜索快速找到所需产品。

      指标类型

      多指标:一条报警规则作用于多个监控指标。

      规则名称

      阈值报警规则的名称。

      报警级别

      报警规则的报警级别及通知方式:

      • 普通(Info):邮件+WebHook

      • 警告(Warn):短信+邮件+WebHook

      • 紧急(Critical):电话+短信+邮件+WebHook

      多指标报警描述

      报警规则的监控指标、报警条件和报警阈值,支持添加多个指标。

      多指标关系

      多个监控指标之间的关系。取值:

      • 当所有指标都符合条件时候则报警

      • 有一个满足条件就报警

      发出报警需要满足达到阈值的次数

      发送报警通知需要监控指标达到报警阈值的次数。

      取值:连续1个周期、连续3个周期、连续5个周期、连续10个周期、连续15个周期、连续30个周期、连续60个周期、连续70个周期、连续90个周期、连续120个周期和连续180个周期。

      报警联系组

      发送报警的联系组。

      报警通知会发送给该报警联系人组中的报警联系人。报警联系组是一组报警联系人,可以包含一个或多个报警联系人。

  3. 按标签顺序填写配置项,创建一个监控ECS CPU利用率指标的报警规则。image..png

  4. 按标签顺序填写配置项,创建一个监控RDS内存使用率指标的报警规则。image..png

  5. 创建完成后,如下图所示。image..png

创建报警模板

一条报警规则只包含了一个云产品对应的监控指标,如果您的CADT应用中包含了大量不同云产品,可以使用报警模板功能。报警模板可以关联多个报警规则,实现更灵活的资源监控。

  1. 在CADT报警服务的报警模板页面,单击创建报警模板image..png

  2. 创建报警模板界面,按标签顺序根据项目需求配置相关参数。

    参数

    说明

    模板名称

    设置报警模板名称。

    说明

    模板名称需要由数字、英文字母或下划线组成,长度最好不超过30字符。

    描述

    报警模板备注信息。

    规则列表

    选择报警模板中需要包含的报警规则。

    image..png

  3. 报警模板创建成功后,如下图所示。

    image..png

绑定监控大屏

将报警模板和开启了监控大屏服务的应用绑定后,当监控数据满足报警规则时,就会产生报警,可以在大屏上看到报警信息,并在拓扑图上标识报警资源,帮助您及时得知异常监控数据并作出处理。

  1. 报警模板创建成功后,单击绑定应用,绑定已开启监控大屏的应用。

    说明

    为应用开启监控大屏操作请查看开启监控大屏

    image..png

  2. 绑定应用列表中,选择需要与报警模板绑定的应用,绑定成功后,显示在已绑定的应用列表中。image..png

  3. 单击智能监控 > 监控大屏,打开监控大屏页面。image..png

  4. 打开绑定了报警模板的应用。image..png

报警服务演示

  1. 此处演示触发ECS CPU利用率监控指标报警,登录ECS执行以下压测命令,提高ECS CPU使用率。

    yum install sysbench
    sysbench cpu --cpu-max-prime=2000000 --threads=2 --time=1000 run

    image..png

  2. 在等待3个周期(3分钟)后,在监控大屏可以看到当前应用中的ECS已被标识为报警资源,报警指标CPU利用率显示已达100%。image..png

  3. 同时可以在报警信息处看到报警规则触发的报警信息。image..png