报警服务是为云上用户提供监控报警能力,帮您第一时间得知监控数据异常,及时处理问题。

参数说明

  • 产品:例如主机监控、RDS、OSS 等。
  • 资源范围:报警规则的作用范围。分为全部资源应用分组实例三种范围。
  • 资源范围选择全部资源时,报警的资源最多1000个,超过1000个可能会出现达到阈值不报警的问题,建议使用应用分组按业务划分资源后再设置报警。

    • 全部资源:表示该规则作用在用户名下对应产品的全部实例上。比如设置了全部资源粒度的MongoDB CPU使用率大于80%报警,则只要用户下有MongoDB CPU使用率大于80%,就会命中这条规则。

    • 应用分组:表示该规则作用在某个应用分组下的全部实例上。比如设置了应用分组粒度的主机 CPU使用率大于80%报警,则只要这个分组下有主机 CPU使用率大于80%,就会命中这条规则。

    • 实例:表示该规则只作用在某个具体实例上。比如设置了实例粒度的主机 CPU 使用率大于80%报警,则只有这个实例 CPU使用率大于80% ,才会命中这条规则。

  • 规则名称:报警规则的名称。

  • 规则描述:报警规则的主体,定义在监控数据满足何种条件时,触发报警规则。例如规则描述为CPU使用率1分钟平均值>=90%,则报警服务会1分钟检查一次1分钟内的数据是否满足平均值>=90%

    报警规则举例说明:以主机监控为例,单个服务器监控指标15秒上报一个数据点,5分钟有20个数据点。

    • CPU使用率 5分钟 平均值>90%, 含义是 CPU使用率 5分钟的20个数据点平均值大于90%。
    • CPU使用率 5分钟 总是>90%, 含义是CPU使用率 5分钟的20个数据点全部大于90%。

    • CPU使用率 5分钟 只要有一次>90%,含义是CPU使用率 5分钟的20个数据点至少有1个大于90%。

    • 公网流出流量 5分钟 总计>50M ,含义是公网流出流量5分钟的20个数据点求和结果大于5M。

  • 连续几次超过阈值后报警:指连续探测几次后,结果都符合报警规则的描述,才发送报警通知。

  • 生效时间:报警规则的生效时间,报警规则只在生效时间内才会检查监控数据是否需要报警。

  • 通知对象:发送报警的联系人组。

  • 报警等级:分为Critical 、Warning、Info三个等级,不同等级对应不同的通知方式。

    • Critical:电话语音+手机短信+邮件+钉钉机器人
    • Warning:手机短信+邮件+钉钉机器人
    • Info:邮件+钉钉机器人
  • 邮件备注:自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。

管理报警规则

云监控为用户提供3个入口管理报警规则,分别是应用分组页面、各类监控的监控列表页面和报警服务的报警规则列表页面。