通知策略

更新时间:
复制为 MD 格式

通知策略用于定义告警或事件订阅的匹配、分组、通知和升级规则,实现灵活的告警分派和通知管理。

功能简介

通知策略是告警事件处理流程中的核心配置,支持以下功能:

  • 定义告警事件的匹配规则,筛选需要处理的事件。

  • 配置事件分组规则,减少通知疲劳度。

  • 指定通知对象和通知时段。

  • 配置重复通知、升级策略和恢复方式。

  • 关联行动集成实现自动化处理。

创建通知策略

  1. 登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择告警中心 > 通知管理 > 通知策略

  2. 单击创建通知策略,进行通知策略配置。

    • 基本信息

      • 名称:通知策略的名称,最多120个字符。

      • 描述:通知策略的描述信息,最多120个字符。

    • 路由规则:路由规则定义事件如何被匹配和通知。事件按路由规则的顺序依次匹配,满足条件后不再继续匹配后续规则。

      • 合并降噪:在配置路由规则前,需要先配置合并降噪字段。通过分组字段将相似事件聚合在一起,减少重复通知。分组字段最多选择5个,除常用分组字段外,可根据事件内字段自定义写入。默认使用labels._cms_rule_id(告警规则ID)与resource.entity.entity_id(资源实体ID)。

      • 路由规则配置:每个通知策略可以配置多条路由规则,点击添加路由规则可以添加新规则。

        • 路由条件:自定义匹配的条件,可添加多条。

        • 通知对象:设置通知的对象,可添加多个。联系人、联系组、排班表类型需要选择具体的通知方式(电话、短信、邮箱),其他类型无需选择通知方式。

        • 生效时间:默认全部时间生效,即7×24小时生效。可点击修改时间来指定生效时间。

    • 通知规则(可选):配置通知的高级规则,包括模板设置、恢复通知、自动恢复、重复通知和行动集成。

      • 通知模板设置:为不同渠道类型配置通知模版

      • 恢复通知:

        选项

        说明

        发送恢复通知

        当告警恢复时发送恢复通知

        不发送恢复通知

        当告警恢复时不发送通知(默认)

      • 自动恢复:告警默认配置经过10分钟后自动恢复(600秒)

        选项

        说明

        告警不会自动恢复

        当告警事件在告警集群中过期且问题未解决时,告警不会自动恢复

        告警在经过N分钟/秒后自动恢复

        当告警事件在告警集群中过期且问题未解决时,告警会自动恢复

      • 重复通知:告警默认配置经过10分钟后自动恢复(600秒)

        选项

        说明

        不需要重复通知

        告警未恢复状态下只发送一次通知

        当告警未恢复时,每隔N分钟/秒后发送重复通知

        告警未恢复时定期发送重复通知

      • 行动集成:配置告警触发或恢复时自动执行的行动集成。

        配置项

        说明

        触发时触发行动集成

        当告警触发时执行指定的行动集成

        恢复时触发行动集成

        当告警恢复时执行指定的行动集成

      • 升级策略:选择已创建的升级策略,当告警在指定时间内未处理时,自动升级通知给更高级别的人员。

  3. 设置完成后单击确定完成通知策略设置。

  4. 在通知策略列表页展示所有已创建的通知策略,包含以下信息:

    字段

    说明

    名称

    通知策略的名称

    描述

    通知策略的描述信息

    分组条件

    用于事件合并降噪的分组字段

    通知模式

    展示触发方式和静默时间,如"直接触发,5分钟内不再通知"

    路由规则数量

    策略中包含的路由规则数量

    自定义通知模板数量

    策略中配置的自定义通知模板数量

    迁移来源

    策略的来源类型(OBS、ARMS、CMS)

    最后修改时间

    策略最后一次修改的时间

    启停状态

    策略的启用/禁用状态

  5. 列表支持以下操作:

    • 创建通知策略:点击"创建通知策略"按钮,进入策略创建页面。

    • 搜索:支持按策略名称进行模糊搜索。

    • 状态筛选:可筛选已启用或未启用的策略。

    • 排序:支持按最后修改时间、启停状态排序。

    • 编辑:点击"编辑"按钮修改策略配置。

    • 删除:点击"删除"按钮删除策略(从ARMSCMS同步的策略不支持删除)。

    • 启停切换:通过开关控制策略的启用/禁用状态。

事件匹配流程

  1. 事件进入通知策略后,首先根据分组字段进行合并降噪。

  2. 系统按路由规则顺序依次匹配事件。

  3. 对于每条路由规则,检查事件是否满足路由条件生效时间

  4. 第一个匹配成功的路由规则生效,后续规则不再匹配。

  5. 根据匹配的路由规则中的通知对象发送通知。

  6. 根据通知规则配置处理恢复通知、自动恢复、重复通知等。

默认配置值

创建通知策略时的默认配置如下:

配置项

默认值

分组字段

labels._cms_rule_idresource.entity.entity_id

静默时间

300秒(5分钟)

自动恢复时间

600秒(10分钟)

重复通知间隔

600秒(10分钟)

恢复通知

不发送恢复通知

生效时间

全部时间

策略同步来源

通知策略支持从多个来源同步:

来源类型

说明

OBS

从可观测监控Prometheus版同步的策略

ARMS

从应用实时监控服务ARMS同步的策略

CMS

云监控2.0本地创建的策略

说明:从其他来源同步的策略可能存在功能限制,如无法删除或编辑部分配置。

配置建议

多级路由规则配置

针对不同严重级别的事件配置不同的通知方式:

  1. 紧急事件(CRITICAL)

    • 路由条件:严重级别等于CRITICAL。

    • 通知对象:值班人员(电话+短信)。

    • 生效时间:7×24小时。

  2. 警告事件(WARNING)

    • 路由条件:严重级别等于WARNING。

    • 通知对象:开发团队(钉钉群)。

    • 生效时间:工作日9:00-18:00。

  3. 信息事件(INFO)

    • 路由条件:不限。

    • 通知对象:运维邮箱。

    • 生效时间:全部时间。

合并降噪配置建议

  • 按规则分组:使用 labels._cms_rule_id 将同一规则产生的事件合并。

  • 按资源分组:使用 resource.entity.entity_id 将同一资源的事件合并。

  • 组合分组:同时使用规则ID和资源ID,实现更细粒度的事件分组。

通知疲劳防护

  • 配置静默时间:避免短时间内大量重复通知。

  • 启用重复通知:对于未处理的告警,定期提醒相关人员。

  • 配置自动恢复:对于瞬时性告警,设置合理的自动恢复时间。

  • 配置升级策略:确保重要告警不会被遗漏。

常见问题

路由规则匹配顺序

路由规则按照列表顺序从上到下依次匹配,第一个匹配成功的规则生效。建议将匹配条件更严格的规则放在前面,将兜底规则放在最后。

通知对象未收到通知

请检查以下配置:

  1. 通知策略是否已启用。

  2. 路由条件是否正确匹配事件。

  3. 生效时间是否包含当前时间。

  4. 通知对象的联系方式是否正确配置。

  5. 通知方式是否已勾选。

如何避免通知风暴

  1. 合理配置分组字段,将相关事件合并。

  2. 设置适当的静默时间。

  3. 配置重复通知间隔,避免频繁通知。

  4. 使用路由条件过滤低优先级事件。