新建告警规则和管理告警规则

通过创建告警规则,您可以制定特定应用的告警。当告警规则被触发时,系统会生成相应的告警事件,通过指定的通知方式向告警联系人、机器人、自定义Webhook和行动集成预案等方式,发送告警信息,以提醒您采取必要的解决措施。

前提条件

  • 根据不同的监控类型,请确保已创建需要告警的监控对象。

  • 已创建需要告警通知对象

创建告警规则

  1. 登录云监控2.0控制台,选择左侧导航栏应用中心 > 告警中心

  2. 告警中心页面,选择告警管理 > 告警规则

  3. 告警规则列表页面,单击创建告警规则

  4. 创建告警规则面板中,设置告警规则相关参数。

    1. 规则名称:自定义报警规则名称。

    2. 监控类型:根据需求选择报警规则的监控类型。

      • 可观测监控Prometheus

        参数

        描述

        数据源类型

        所属目标监控类型的数据源。

        地域

        数据源的地域。

        Prometheus实例

        根据选择目标实例设置报警规则。

        检测条件定义方式

        自定义PromQL:根据您的需求可以自定义 PromQL查询语法。请参见PromQL函数使用示例

        基于预定义指标配置

        • 指标分组:选择指标分组。

        • 指标:选择指标。

        • 检测条件:通过设置比较符和个数,设置检测条件。

        • PromQL 预览:预览预定义的指标PromQL语句。

        严重等级

        设置告警规则严重等级。

        • P1: 紧急

        • P2: 错误

        • P3: 警告

        • P4: 普通

        持续时间

        设置告警的持续时间。

        告警检测周期

        设置告警检测周期的时间。

        数据完成后再检测

        选择检测方式。

        内容

        自定义警报信息内容。

      • 应用监控

        参数

        描述

        数据源类型

        目标监控类型的数据源类型。

        地域

        数据源的地域。

        应用

        选择设置告警规则的应用实例。

        指标分组

        选择应用指标的分组。

        接口名称

        选择接口匹配方式,如:遍历等于不等于正则匹配正则不匹配无维度

        接口调用类型

        检测条件方式

        单条件

        • 设置最近 N 分钟,调用类型和计算的方式,选择比较符。

        • 设置不同级别的数量,紧急错误警告普通

        • PromQL 预览:预览预定义的指标PromQL语句。

        多条件

        • 多告警触发规则:选择触发告警规则的条件方式,可以任意满足条件或者同时满足条件

        • 检测条件1:可以参考以上单条件参数设置。

        • 添加检测条件:可以根据需求添加多组的检测条件。

        • 严重等级:根据需求选择等级,包括了P1: 紧急P2: 错误P3: 警告P4: 普通

        告警检测周期

        设置告警检测周期的时间。

        检测判定说明

        预览自定义的检测判定内容。

      • 用户体验监控

        参数

        描述

        数据源类型

        目标监控类型的数据源类型。

        地域

        数据源的地域。

        应用

        选择设置告警规则的应用实例。

        指标分组

        选择应用指标分组,包含了异常监控卡顿监控资源监控页面监控

        筛选条件

        根据选择的指标分组,有不同的预定义参数,可以选择匹配输入值的方式,如:遍历等于不等于包含不包含正则匹配正则不匹配无维度

        检测条件方式

        可以参考以上应用监控

        告警检测周期

        设置告警检测周期的时间。

        检测判定说明

        预览自定义的检测判定内容。

      • 大模型可观测

        参数

        描述

        数据源类型

        • Prometheus

        • 日志

        地域

        数据源的地域。

        应用

        选择设置告警规则的应用实例。

        指标分组

        选择应用指标分组,包含了异常监控卡顿监控资源监控页面监控

        筛选条件

        根据选择的指标分组,有不同的预定义参数,可以选择匹配输入值的方式,如:遍历等于不等于包含不包含正则匹配正则不匹配无维度

        检测条件方式

        可以参考以上应用监控

        告警检测周期

        设置告警检测周期的时间。

        检测判定说明

        预览自定义的检测判定内容。

      • 基础云监控

        参数

        描述

        产品

        根据需求选择创建告警规则的目标云产品。

        资源范围

        设置选择的云产品资源范围,包括全部资源应用分组实例

        指标类型

        根据您的需求设置告警规则的指标方式。

        • 简单指标:根据需求设置监控指标,再为其设置阈值和报警级别,包括紧急、警告、普通,根据不同级别设置周期和阈值。

        • 组合指标:根据需求选择不同报警级别,可以设置多个监控指标组合一起。

          • 多指标报警描述:可以添加多个不同的监控指标,并且设置阈值条件。

            说明

            如果设置了多个指标报警规则,则目标资源必须在每个指标上均有数据,只有在满足条件后才能够正常触发报警。例如:在多指标报警规则中,如果包含公网的监控指标,而ECS主机资源并未配置公网IP,则将无法正常触发报警。

          • 多指标关系:通过添加了多个不同条件的监控指标,可以设置逻辑运算符,如满足所有条件时则报警或者有一个条件满足时就报警。

        • 表达式:先选择报警级别,再配置报警表达式报警阈值触发次数

        无数据处理方法

        选择无数据的处理方法。

        • 不做任何处理

        • 发送无数据报警

        • 视为恢复

      • 企业云监控:根据需求选择自定义的指标仓库,以下配置请参考本文档的监控类型(可观测监控Prometheus版)配置参数说明。

      • 云拨测:请参考本文档监控类型(可观测监控Prometheus版)配置参数说明。

      • 容器洞察/ECS 洞察/RDS 洞察/AI Infra 服务洞察/Redis 洞察:请参考本文档监控类型(可观测监控Prometheus版)配置参数说明。

      • 日志审计

        参数

        描述

        选择模板

        操作审计:根据需求选择操作审计模板。

        主机审计:根据需求选择主机审计模板。

        查询统计

        单查询:通过设置日志相关信息单项查询。

        集合操作:设置集合操作的方式,可以添加多组资源。

        检测判定

        根据需求可以添加多组条件,设置匹配数据的方式和严重等级。

        严重等级

        根据需求选择报警级别,包括紧急错误警告普通

        连续次数

        设置连续满足条件多少次,触发报警。

        告警检测周期

        自定义设置告警检测的周期是多少时间。

      • 日志服务:请参考本文档监控类型(日志审计)配置参数说明。

    3. 设置警报信息

      1. 内容:根据您的需求可以自定义警报信息。

      2. 标签注解:设置报警规则的标签和注解。包括标签名称和标签值。

    4. 设置告警通知

      1. 通知对象:根据您的需求,可以选择一个或者多个通知对象方式,如:联系人/联系组/钉钉/企业微信/飞书/Slack/自定义Webhook,触发告警后接收告警信息。

      2. 集成到 ARMS 告警管理:根据需求选择是或者否。

        说明

        告警事件默认会发送到 ARMS 告警运维中心,如需设置告警通知,请前往 ARMS 告警运维中心进行配置。

      3. 行动集成:选择特定的云产品或者第三方服务,处理告警后续的事务,如:日志服务、轻量消息队列、函数计算和第三方服务pagerDuty、Webhook。

      4. 通道沉默周期:报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:1、5、10、15、30、50分钟,1、3、6、12、24小时。

        说明

        例如:当通道沉默周期选择12小时时,如果报警未恢复正常,则间隔12小时后,云监控会再次发送报警通知。

      5. 生效时间:报警规则的生效时间。报警规则仅在生效期内才会发送报警通知。

        说明
        • 当报警规则不在生效期时,不会发送报警通知,但是报警历史记录仍然会显示在报警历史列表中。

        • 通知时间支持24小时内,可跨天,例如23:00 至 第二天01:00

管理告警规则

报警规则列表页面,您可以查询告警历史、编辑或删除告警规则:

  • 搜索:可以根据告警规则分类筛选告警规则列表,或者通过如下告警参数,搜索目标告警规则。

    • 监控类型

    • 规则名称

    • 规则ID

    • 告警状态

    • 启停状态

  • 更多筛选:单击右侧更多筛选,可以使用添加标签添加通知对象方式搜索。

  • 编辑:选择目标告警规则,单击右侧操作列中的编辑,在对话框中修改信息,单击确定

  • 删除:选择目标告警规则,单击右侧操作列中的图标image删除