本文为您介绍如何创建阈值报警规则,通过对监控项报警阈值进行监控,帮您第一时间得知监控数据异常,以便及时处理问题。

背景信息

当您需要管理和监控各云产品资源的使用和运行情况时,您可以通过创建阈值报警规则,实现监控项超过设定阈值后自动发送报警通知,帮您及时得知监控数据异常并快速进行处理。

创建阈值报警规则准备工作

在创建阈值报警规则之前,建议您先创建报警联系人和报警联系组,以便在创建报警规则时选择相应的报警联系组,接收报警通知。关于如何创建报警联系人和报警联系组,请参见创建报警联系人/报警联系组

如果您想在报警规则中使用报警回调,还需要准备能通过公网访问的回调URL并在已有的运维系统或消息通知系统的告警方式中开启URL回调。

创建阈值报警规则

报警服务支持电话、短信、邮件、旺旺、钉钉机器人等多种方式。如果您想通过多种方式接收报警通知,请在设置报警联系人时确保各通知方式信息准确无误。

  1. 登录云监控控制台
  2. 在左侧导航栏选择报警服务 > 报警规则
  3. 报警规则列表页面,单击创建报警规则
  4. 创建报警规则页面,配置关联资源、报警规则和通知方式。
    参数 说明
    产品 云监控可管理的产品名称。例如:云服务器ECS。
    资源范围 报警规则的作用范围,分为实例全部资源
    • 全部资源:表示该规则作用在用户名下对应产品的全部实例上。例如设置了全部资源粒度的MongoDB CPU使用率大于80%报警,则只要用户名下有MongoDB CPU使用率大于80%,就会发送报警通知。资源范围选择全部资源时,报警的资源最多1000个,超过1000个可能会导致达到阈值不报警的问题,建议您使用应用分组按业务划分资源后再设置报警。
    • 实例:表示该规则只作用在某个具体实例上。例如设置了实例粒度的主机CPU使用率大于80%报警,则只要这个实例CPU使用率大于80% ,就会发送报警通知。
    规则名称 报警规则的名称。
    规则描述 报警规则的主体,定义在监控数据满足何种条件时,触发报警规则。例如规则描述为CPU使用率5分钟平均值>=90%,则报警服务会5分钟检查一次5分钟内的数据是否满足平均值>=90%。
    报警规则举例说明:以主机监控为例,单个服务器监控指标15秒上报一个数据点,5分钟有20个数据点。
    • CPU使用率5分钟平均值>90%, 含义是CPU使用率 5分钟的20个数据点平均值大于90%。
    • CPU使用率5分钟总是>90%, 含义是CPU使用率 5分钟的20个数据点全部大于90%。
    • CPU使用率5分钟只要有一次>90%,含义是CPU使用率 5分钟的20个数据点至少有1个大于90%。
    • 公网流出流量5分钟总计>50M ,含义是公网流出流量5分钟的20个数据点求和结果大于50M。
    通道沉默时间 指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    连续几次超过阈值后报警 连续几次报警的探测结果符合您设置的规则描述,才会触发报警。例如规则描述为“CPU使用率 1分钟内平均值>80%,连续3次超过阈值后报警”,则连续出现3次 CPU使用率 1分钟内平均值>80%的情况,才会触发报警。
    生效时间 报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。
    通知对象 发送报警的联系人组。
    报警级别
    • 电话+短信+邮件+钉钉机器人
    • 短信+邮件+钉钉机器人
    • 邮件+钉钉机器人
    邮件主题 默认为产品名称+监控项名称+实例ID。
    邮件备注 自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。
    报警回调 填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
    创建报警规则
  5. 选择资源范围、根据参数设置报警规则,选择通知方式,单击确认即可。

更多信息