告警管理

通过创建告警规则,您可以制定针对特定应用的告警。当告警规则被触发时,系统会以您指定的通知方式向告警联系人或钉群发送告警信息,以提醒您采取必要的解决措施。

创建告警规则

  1. 登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择应用中心 > 运维监控 > 应用监控

  2. 在顶部菜单栏选择告警管理 > 告警规则,然后单击创建告警规则

  3. 创建告警规则面板设置以下告警参数。

    1. 规则名称:自定义告警规则名称。

    2. 数据源类型:选择数据源上报方式为ARMS探针或OpenTelemetry。

    3. 检测判定:设置告警检测条件。

      参数

      描述

      应用

      选择设置告警规则的应用实例。

      指标分组

      选择应用指标的分组。更多信息,请参见告警规则指标说明

      接口名称

      选择接口匹配方式,如:遍历等于不等于正则匹配正则不匹配无维度

      接口调用类型

      检测条件方式

      单条件

      • 设置最近 N 分钟,调用类型和计算的方式,选择比较符。

      • 设置不同级别的数量,紧急错误警告普通

      • PromQL 预览:预览预定义的指标PromQL语句。

      多条件

      • 多告警触发规则:选择触发告警规则的条件方式,可以任意满足条件或者同时满足条件

      • 检测条件1:可以参考以上单条件参数设置。

      • 添加检测条件:可以根据需求添加多组的检测条件。

      • 严重等级:根据需求选择等级,包括了P1: CriticalP2: ErrorP2: ErrorP4: Info

      告警检测周期

      指告警规则每隔N分钟进行一次检查,判断数据是否满足告警条件。

      检测判定说明

      预览自定义的检测判定内容。

    4. 设置告警信息

      1. 内容:使用Go Template语法在告警内容中自定义告警参数变量。系统为不同指标预置了相应的模板。当预置模板不能满足需求时,您可以进行手动修改。

      2. 标签:设置告警标签,设置的标签可用作通知策略匹配规则的选项。

      3. 注解:设置告警的注释。

    5. 设置告警通知

      1. 通知对象:根据您的需求,可以选择一个或者多个通知对象方式。

      2. 集成到 ARMS 告警管理:根据需求选择是或者否。

        说明

        告警事件默认会发送到 ARMS 告警管理中,您可以前往 ARMS 告警管理平台配置通知策略发送告警通知。

      3. 行动集成:选择特定的云产品或者第三方服务,处理告警后续的事务,如:日志服务、轻量消息队列、函数计算和第三方服务pagerDuty、Webhook。更多信息,请参见行动集成

      4. 通道沉默周期:告警发生后未恢复正常,间隔多久重复发送一次告警通知。取值:1、5、10、15、30、50分钟,1、3、6、12、24小时。

        说明

        例如:当通道沉默周期选择12小时时,如果告警未恢复正常,则间隔12小时后,云监控会再次发送告警通知。

      5. 生效时间:告警规则的生效时间。告警规则仅在生效期内才会发送告警通知。

        说明
        • 当告警规则不在生效期时,不会发送告警通知,但是告警历史记录仍然会显示在告警历史列表中。

        • 通知时间支持24小时内,可跨天,例如23:00 至 第二天01:00

  4. 设置完成后单击确定。在告警规则列表页面,您可以查看当前告警规则的状态。

管理告警规则

告警规则列表页面,您可以查询告警历史、编辑或删除告警规则:

  • 搜索:可以根据告警规则分类筛选告警规则列表,或者通过如下告警参数,搜索目标告警规则。

    • 规则名称

    • 规则ID

    • 告警状态

    • 启停状态

  • 更多筛选:单击右侧更多筛选,可以根据标签和通知对象搜索告警规则。

  • 编辑:选择目标告警规则,单击右侧操作列中的编辑,在对话框中修改信息,单击确定

  • 删除:选择目标告警规则,单击右侧操作列中的图标image删除

查看告警历史

  1. 登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择应用中心 > 运维监控 > 应用监控

  2. 在顶部菜单栏选择告警管理 > 告警历史

  3. 您可以通过告警状态规则ID规则名称告警内容筛选告警历史,查看对应的告警信息。

    • 操作列单击通知历史,可以查看该告警通知的发送历史。

    • 操作列单击详情,可以查看该告警的详细信息。

    • 操作列单击查看事件,可以查看该告警下的所有事件详情。

    • 操作列单击根因分析,可以通过Copilot分析当前告警。

    • 单击右上角的点击检测,可以获取当前所有告警的总体情况、高频触发规则、高频自愈规则和长期忽视规则。