新建告警规则和管理告警规则

更新时间:
复制为 MD 格式

在告警管理中,可以通过创建告警规则,制定特定应用的告警。当告警规则被触发时,系统会生成相应的告警事件,通过指定的通知方式向告警联系人、机器人、自定义Webhook和行动集成预案等方式,发送告警信息,以提醒您采取必要的解决措施。在告警历史中可以查看历史告警事件。

前提条件

  • 已开通相应的可观测监控服务(如Prometheus、应用监控、日志服务等)。

  • 已创建通知对象

创建告警规则

  1. 登录云监控2.0控制台,选择左侧导航栏所有功能 > 告警中心

  2. 告警中心页面,选择告警管理 > 告警规则

  3. 告警规则列表页面,单击创建告警规则

  4. 创建告警规则面板中,设置告警规则相关参数。

    1. 规则名称:告警规则的显示名称,用于标识该规则。建议使用有意义的名称便于管理。

    2. 监控类型:根据需求选择报警规则的监控类型。

      • 可观测监控Prometheus/云拨测

        参数

        描述

        数据源类型

        所属目标监控类型的数据源。

        地域

        数据源的地域。

        Prometheus实例

        根据选择目标实例设置报警规则。

        检测条件定义方式

        自定义PromQL:根据您的需求可以自定义 PromQL查询语法。请参见PromQL函数使用示例

        基于预定义指标配置

        • 指标分组:选择指标分组。

        • 指标:选择指标。

        • 检测条件:通过设置比较符和个数,设置检测条件(其中p50、p75、p90、p99表示百分位数)。

        • PromQL 预览:预览预定义的指标PromQL语句。

        严重等级

        设置告警规则严重等级。

        • P1: 紧急:用于影响核心业务可用性,影响范围很大的重大问题。

        • P2: 错误:用于部分业务出错,会对系统可用性造成一定影响的问题。

        • P3: 警告:用于可能导致业务出错或受影响的问题。

        • P4: 普通:用于需要通知但优先级较低的场景。默认级别。

        持续时间

        设置告警的持续时间。表示数据持续多长时间满足条件后才触发告警,避免瞬时波动导致的误报。

        告警检测周期

        设置告警检测周期的时间。告警规则的执行周期。默认值为 60 秒,即每分钟检查一次。

        内容

        使用Go template语法自定义警报信息内容。例如:命名空间:{{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器:{{$labels.container}} CPU使用率{{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%, 当前值{{ printf "%.2f" $value }}%

        标签

        用户自定义的键值对标签,用于告警规则的分类和筛选。例如:env: productionteam: sre

        注解

        告警规则的扩展信息,用于存储长文本描述或 Runbook 链接。例如:description: CPU使用率过高runbook_url: https://wiki.xxx.com/runbook\

      • 应用监控

        参数

        描述

        数据源类型

        目标监控类型的数据源类型。

        地域

        数据源的地域。

        应用

        选择设置告警规则的应用实例。

        指标分组

        选择应用指标的分组。

        接口名称

        选择接口匹配方式,如:遍历等于不等于正则匹配正则不匹配无维度

        接口调用类型

        检测条件方式

        单条件

        • 设置最近 N 分钟,调用类型和计算的方式,选择比较符。

        • 设置不同级别的数量,紧急错误警告普通

        多条件

        • 多告警触发规则:选择触发告警规则的条件方式,可以任意满足条件或者同时满足条件

        • 检测条件1:可以参考以上单条件参数设置。

        • 添加检测条件:可以根据需求添加多组的检测条件。

        • 严重等级:根据需求选择等级,包括了P1: 紧急P2: 错误P3: 警告P4: 普通

        告警检测周期

        设置告警检测周期的时间。告警规则的执行周期。默认值为 60 秒,即每分钟检查一次。

        内容

        自定义警报信息内容。

        标签

        用户自定义的键值对标签,用于告警规则的分类和筛选。例如:env: productionteam: sre

        注解

        告警规则的扩展信息,用于存储长文本描述或 Runbook 链接。例如:description: CPU使用率过高runbook_url: https://wiki.xxx.com/runbook\

      • 大模型可观测

        参数

        描述

        数据源类型

        UModel

        实体类型

        选择设置告警规则的实体类型。

        指标集

        选择指标集,包含AI 应用操作指标,GenAI模型指标,AI应用流量指标。

        检测条件

        设置检测触发条件阈值。

        严重等级

        根据需求选择等级,包括了P1: 紧急P2: 错误P3: 警告P4: 普通

        持续时间

        设置告警的持续时间。

        告警检测周期

        设置告警检测周期的时间。告警规则的执行周期。默认值为 60 秒,即每分钟检查一次。

        内容

        自定义警报信息内容。

        标签

        用户自定义的键值对标签,用于告警规则的分类和筛选。例如:env: productionteam: sre

        注解

        告警规则的扩展信息,用于存储长文本描述或 Runbook 链接。例如:description: CPU使用率过高runbook_url: https://wiki.xxx.com/runbook\

      • 容器洞察/ECS 洞察/Hologres 洞察/AI训练服务洞察/数据库洞察

        参数

        描述

        数据源类型

        所属目标监控类型的数据源。

        地域

        数据源的地域。

        Prometheus实例

        根据选择目标实例设置报警规则。

        检测条件定义方式

        自定义PromQL:根据您的需求可以自定义 PromQL查询语法。请参见PromQL函数使用示例

        基于预定义指标配置

        • 指标分组:选择指标分组。

        • 指标:选择指标。

        • 检测条件:通过设置比较符和个数,设置检测条件。

        • PromQL 预览:预览预定义的指标PromQL语句。

        严重等级

        设置告警规则严重等级。

        • P1: 紧急

        • P2: 错误

        • P3: 警告

        • P4: 普通

        持续时间

        设置告警的持续时间。

        告警检测周期

        设置告警检测周期的时间。告警规则的执行周期。默认值为 60 秒,即每分钟检查一次。

        数据完成后再检测

        选择检测方式。

        内容

        使用Go template语法自定义警报信息内容。例如:命名空间:{{$labels.namespace}} / Pod: {{$labels.pod_name}} / 容器:{{$labels.container}} CPU使用率{{$labels.metrics_params_opt_label_value}} {{$labels.metrics_params_value}}%, 当前值{{ printf "%.2f" $value }}%

        标签

        用户自定义的键值对标签,用于告警规则的分类和筛选。例如:env: productionteam: sre

        注解

        告警规则的扩展信息,用于存储长文本描述或 Runbook 链接。例如:description: CPU使用率过高runbook_url: https://wiki.xxx.com/runbook\

      • 日志审计

        参数

        描述

        选择模板

        操作审计:根据需求选择操作审计模板。

        主机审计:根据需求选择主机审计模板。

        容器审计:根据需求选择容器审计模板。

        查询统计

        单查询:通过设置日志相关信息单项查询。

        集合操作:设置集合操作的方式,可以添加多组资源。

        检测判定

        根据需求可以添加多组条件,设置匹配数据的方式和严重等级。

        严重等级

        根据需求选择报警级别,包括紧急错误警告普通

        连续次数

        设置连续满足条件多少次,触发报警。

        告警检测周期

        自定义设置告警检测的周期是多少时间。告警规则的执行周期,默认值为 60 秒,即每分钟检查一次。

        标签

        用户自定义的键值对标签,用于告警规则的分类和筛选。例如:env: productionteam: sre

        注解

        告警规则的扩展信息,用于存储长文本描述或 Runbook 链接。例如:description: CPU使用率过高runbook_url: https://wiki.xxx.com/runbook\

      • 日志服务:请参考本文档监控类型(日志审计)配置参数说明。

    3. 设置告警通知

      • 通知对象:根据您的需求,可以选择一个或者多个通知对象方式,触发告警后接收告警信息。

        • 联系人:直接指定接收告警的人员。

        • 联系组:指定一组联系人接收告警。

        • 钉钉:通过钉钉群机器人发送告警。

        • 企业微信:通过企业微信机器人发送告警。

        • 飞书:通过飞书机器人发送告警。

        • Slack:通过 Slack 发送告警。

        • 自定义Webhook:通过自定义 HTTP 回调发送告警。

      • 集成到 ARMS 告警管理:根据需求选择是或者否。

        说明

        告警事件默认会发送到 ARMS 告警运维中心,如需设置告警通知,请前往 ARMS 告警运维中心进行配置。

      • 行动集成:选择特定的云产品或者第三方服务,处理告警后续的事务,如:日志服务、轻量消息队列、函数计算和第三方服务pagerDuty、Webhook。

      • 通道沉默周期:报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:1、5、10、15、30、50分钟,1、3、6、12、24小时。

        说明

        例如:当通道沉默周期选择12小时时,如果报警未恢复正常,则间隔12小时后,云监控会再次发送报警通知。

      • 生效时间:报警规则的生效时间。报警规则仅在生效期内才会发送报警通知。

        说明
        • 当报警规则不在生效期时,不会发送报警通知,但是报警历史记录仍然会显示在报警历史列表中。

        • 通知时间支持24小时内,可跨天,例如23:00 至 第二天01:00

管理告警规则

  1. 告警规则列表页面,可以查看所有已创建的告警规则,主要信息如下:

    字段

    说明

    告警状态

    规则当前的状态。取值:

    - 无告警(Ok):监控数据正常,未触发告警条件。

    - 告警中(Alarm):监控数据已触发告警条件,告警正在进行中。

    - 无数据(NoData):没有获取到监控数据。

    规则名称/ID

    告警规则的显示名称和唯一标识符(UUID)。

    启停状态

    规则是否启用。启用的规则会按配置的周期执行检查,禁用的规则不执行。

    业务来源

    规则所属的产品类型。

  2. 可以通过如下告警参数,搜索目标告警规则。

    • 监控类型

    • 规则名称ID

    • 告警状态

    • 启停状态

    • 更多筛选:可以使用添加标签添加通知对象方式搜索。

  • 编辑:选择目标告警规则,单击右侧操作列中的编辑,在对话框中修改信息,单击确定

  • 启用/禁用:选择目标告警规则,在启停状态列通过按钮控制。

  • 删除:选择目标告警规则,单击右侧操作列中的图标image删除

    警告

    删除后无法恢复,请谨慎操作。

查看告警历史

  1. 告警管理 > 告警历史页面,根据以下字段进行筛选,查看对应的告警历史信息。

    监控类型

    根据不同的监控类型观测应用、观测用户体验、洞察云产品、安全&审计进行查询。

    告警状态

    告警处理的状态,包括告警中、无告警状态。

    规则ID

    新建的告警规则生成的ID。

    规则名称

    新建的告警规则名称。

    告警内容

    通过告警内容筛选告警历史。

    告警历史ID

    通过告警ID筛选告警历史。

  2. 在告警历史列表中,可以查询的信息包括如下内容。

    • 严重等级

    • 触发时间

    • 告警内容

    • 关联资源

    • 监控类型

    • 持续时长

    • 规则名称/ID

    • 迁移来源

    • 告警状态

  3. 选择目标告警右侧操作列中的通知历史,可以查看到告警通知的历史信息。

  4. 选择目标告警右侧操作列中的详情,可以查看到告警通知的详情信息。

  5. 选择目标告警右侧操作列中的查看事件,可以查看到告警通知的相关事件日志。