配置高级告警规则

更新时间:

云监控只支持对监控指标配置阈值触发告警规则。如果需要对多个监控指标配置按比例触发告警规则(例如,数据量达到总存储空间的80%时,触发告警规则),您可以通过企业云监控创建报警规则。

前提条件

高级告警配置

  1. 接入云产品指标。

    1. 登录云监控控制台

    2. 在左侧导航栏,选择企业云监控 > 指标仓库

    3. 指标仓库页面,单击目标指标仓库对应接入数据列下的添加到该仓库的账号数量、云产品数量、指标数量或任务数。

    4. 指标管理面板的云产品指标页签,添加CPFS监控指标。

      说明

      目前CPFS和NAS共用云监控控制台,添加指标弹框中会包含NAS监控指标。您只需要选择Metric Category列为文件存储CPFS的指标即可。更多关于CPFS监控指标的信息,请参见监控项

      1. 添加文件存储NAS。

        1. 单击当前账号后面的image.png图标。

        2. 添加产品对话框,选择文件存储NAS,再单击确定

      2. 添加CPFS监控指标。

        1. 先单击文件存储NAS,再单击添加指标

        2. 添加指标对话框,先选择目标监控指标,再单击确定

  2. 创建报警规则。

    1. 指标仓库列表页签,单击右上角的创建报警

    2. 创建报警规则面板,设置报警规则相关参数。

      配置项

      说明

      规则名称

      报警规则的名称。

      指标仓库

      选择步骤1接入CPFS指标的指标仓库。

      报警表达式

      报警规则的主体。当监控指标满足报警条件时,触发报警规则。

      例如,创建的报警表达式为:文件系统数据量÷总存储空间>80%。格式如下所示。

      AliyunNas_CPFSCapacityUsed{fileSystemId="cpfs-192ec9bd1a47xxxx"} / AliyunNas_CPFSCapacity{fileSystemId="cpfs-192ec9bd1a47xxxx"} > 0.8
      说明

      在创建已分配文件数与最大文件数按比例触发告警的规则时,已分配文件数量不可大于可承载的最大文件数量。

      标签

      报警规则的标签。您可以设置标签键和标签值。

      注释

      报警规则的注释。您可以设置注释键和注释值。

      通道沉默周期

      报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。

      某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默周期内不会重复发送报警通知;如果监控指标在通道沉默周期后仍未恢复正常,则云监控再次发送报警通知。

      生效时间

      报警规则的生效时间。报警规则只在生效时间内才会检查监控指标是否需要报警。

      报警联系人组

      发送报警的联系人组。

      应用分组的报警通知会发送给该报警联系人组中的报警联系人。报警联系人组是一组报警联系人,可以包含一个或多个报警联系人。

      关于如何创建报警联系人和报警联系人组,请参见创建报警联系人或报警联系人组

      报警级别

      报警级别和报警通知方式。取值:

      • 紧急(电话+短信+邮件+钉钉机器人)

      • 警告(短信+邮件+钉钉机器人)

      • 普通(邮件+钉钉机器人)

      报警连续周期的取值:1、3、5、10、15、30、60、70、90、120和180。1周期等于1分钟。

      报警回调

      公网可访问的URL,用于接收云监控通过POST请求推送的报警信息。目前仅支持HTTP协议。

      当您需要测试报警回调地址的连通性时,可以执行以下操作。

      1. 单击回调地址正后方的测试

        WebHook测试面板,您可以通过Webhook返回的状态码和测试结果详情对报警回调地址的连通性进行判断和排查。

        说明

        您还可以设置Webhook的回调模板类型语言,再次单击测试,获取对应的测试结果详情。

      2. 单击关闭

      弹性伸缩

      如果您打开弹性伸缩开关,当报警发生时,会触发相应的伸缩规则。您需要设置弹性伸缩的地域弹性伸缩组弹性伸缩规则

      日志服务

      如果您打开日志服务开关,当报警发生时,会将报警信息写入日志服务。您需要设置日志服务的地域ProjectNameLogstore

      关于如何创建Project和Logstore,请参见快速入门

      轻量消息队列(原 MNS)— topic

      如果您打开轻量消息队列(原 MNS)— topic开关,当报警发生时,会将报警信息写入消息服务的主题。您需要设置消息服务的地域和主题。

      关于如何创建主题,请参见创建主题

      函数计算

      如果您打开函数计算开关,当报警发生时,会将报警通知发送至函数计算进行格式处理。您需要设置函数计算的地域、服务和函数。

      关于如何创建服务和函数,请参见快速创建函数

      数据处理方法

      无监控数据时报警的处理方式。取值:

      • 不做任何处理(默认值)

      • 发送无数据报警

      • 视为恢复

    3. 单击确定

  3. 可选:查看创建的报警规则。

    在左侧导航栏,选择报警服务 > 报警规则

    报警规则列表页面,产品名称Prometheus的报警规则为您创建的报警规则。

更多参考