通知策略用于定义告警或事件订阅的匹配、分组、通知和升级规则,实现灵活的告警分派和通知管理。
功能简介
通知策略是告警事件处理流程中的核心配置,支持以下功能:
定义告警事件的匹配规则,筛选需要处理的事件。
配置事件分组规则,减少通知疲劳度。
指定通知对象和通知时段。
配置重复通知、升级策略和恢复方式。
关联行动集成实现自动化处理。
创建通知策略
登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择。
单击创建通知策略,进行通知策略配置。
基本信息:
名称:通知策略的名称,最多120个字符。
描述:通知策略的描述信息,最多120个字符。
路由规则:路由规则定义事件如何被匹配和通知。事件按路由规则的顺序依次匹配,满足条件后不再继续匹配后续规则。
合并降噪:在配置路由规则前,需要先配置合并降噪字段。通过分组字段将相似事件聚合在一起,减少重复通知。分组字段最多选择5个,除常用分组字段外,可根据事件内字段自定义写入。默认使用
labels._cms_rule_id(告警规则ID)与resource.entity.entity_id(资源实体ID)。路由规则配置:每个通知策略可以配置多条路由规则,点击添加路由规则可以添加新规则。
路由条件:自定义匹配的条件,可添加多条。
通知对象:设置通知的对象,可添加多个。联系人、联系组、排班表类型需要选择具体的通知方式(电话、短信、邮箱),其他类型无需选择通知方式。
生效时间:默认全部时间生效,即7×24小时生效。可点击修改时间来指定生效时间。
通知规则(可选):配置通知的高级规则,包括模板设置、恢复通知、自动恢复、重复通知和行动集成。
通知模板设置:为不同渠道类型配置通知模版。
恢复通知:
选项
说明
发送恢复通知
当告警恢复时发送恢复通知
不发送恢复通知
当告警恢复时不发送通知(默认)
自动恢复:告警默认配置经过10分钟后自动恢复(600秒)
选项
说明
告警不会自动恢复
当告警事件在告警集群中过期且问题未解决时,告警不会自动恢复
告警在经过N分钟/秒后自动恢复
当告警事件在告警集群中过期且问题未解决时,告警会自动恢复
重复通知:告警默认配置经过10分钟后自动恢复(600秒)
选项
说明
不需要重复通知
告警未恢复状态下只发送一次通知
当告警未恢复时,每隔N分钟/秒后发送重复通知
告警未恢复时定期发送重复通知
行动集成:配置告警触发或恢复时自动执行的行动集成。
配置项
说明
触发时触发行动集成
当告警触发时执行指定的行动集成
恢复时触发行动集成
当告警恢复时执行指定的行动集成
升级策略:选择已创建的升级策略,当告警在指定时间内未处理时,自动升级通知给更高级别的人员。
设置完成后单击确定完成通知策略设置。
在通知策略列表页展示所有已创建的通知策略,包含以下信息:
字段
说明
名称
通知策略的名称
描述
通知策略的描述信息
分组条件
用于事件合并降噪的分组字段
通知模式
展示触发方式和静默时间,如"直接触发,5分钟内不再通知"
路由规则数量
策略中包含的路由规则数量
自定义通知模板数量
策略中配置的自定义通知模板数量
迁移来源
策略的来源类型(OBS、ARMS、CMS)
最后修改时间
策略最后一次修改的时间
启停状态
策略的启用/禁用状态
列表支持以下操作:
创建通知策略:点击"创建通知策略"按钮,进入策略创建页面。
搜索:支持按策略名称进行模糊搜索。
状态筛选:可筛选已启用或未启用的策略。
排序:支持按最后修改时间、启停状态排序。
编辑:点击"编辑"按钮修改策略配置。
删除:点击"删除"按钮删除策略(从ARMS或CMS同步的策略不支持删除)。
启停切换:通过开关控制策略的启用/禁用状态。
事件匹配流程
事件进入通知策略后,首先根据分组字段进行合并降噪。
系统按路由规则顺序依次匹配事件。
对于每条路由规则,检查事件是否满足路由条件和生效时间。
第一个匹配成功的路由规则生效,后续规则不再匹配。
根据匹配的路由规则中的通知对象发送通知。
根据通知规则配置处理恢复通知、自动恢复、重复通知等。
默认配置值
创建通知策略时的默认配置如下:
配置项 | 默认值 |
分组字段 |
|
静默时间 | 300秒(5分钟) |
自动恢复时间 | 600秒(10分钟) |
重复通知间隔 | 600秒(10分钟) |
恢复通知 | 不发送恢复通知 |
生效时间 | 全部时间 |
策略同步来源
通知策略支持从多个来源同步:
来源类型 | 说明 |
OBS | 从可观测监控Prometheus版同步的策略 |
ARMS | 从应用实时监控服务ARMS同步的策略 |
CMS | 云监控2.0本地创建的策略 |
说明:从其他来源同步的策略可能存在功能限制,如无法删除或编辑部分配置。
配置建议
多级路由规则配置
针对不同严重级别的事件配置不同的通知方式:
紧急事件(CRITICAL):
路由条件:严重级别等于CRITICAL。
通知对象:值班人员(电话+短信)。
生效时间:7×24小时。
警告事件(WARNING):
路由条件:严重级别等于WARNING。
通知对象:开发团队(钉钉群)。
生效时间:工作日9:00-18:00。
信息事件(INFO):
路由条件:不限。
通知对象:运维邮箱。
生效时间:全部时间。
合并降噪配置建议
按规则分组:使用
labels._cms_rule_id将同一规则产生的事件合并。按资源分组:使用
resource.entity.entity_id将同一资源的事件合并。组合分组:同时使用规则ID和资源ID,实现更细粒度的事件分组。
通知疲劳防护
配置静默时间:避免短时间内大量重复通知。
启用重复通知:对于未处理的告警,定期提醒相关人员。
配置自动恢复:对于瞬时性告警,设置合理的自动恢复时间。
配置升级策略:确保重要告警不会被遗漏。
常见问题
路由规则匹配顺序
路由规则按照列表顺序从上到下依次匹配,第一个匹配成功的规则生效。建议将匹配条件更严格的规则放在前面,将兜底规则放在最后。
通知对象未收到通知
请检查以下配置:
通知策略是否已启用。
路由条件是否正确匹配事件。
生效时间是否包含当前时间。
通知对象的联系方式是否正确配置。
通知方式是否已勾选。
如何避免通知风暴
合理配置分组字段,将相关事件合并。
设置适当的静默时间。
配置重复通知间隔,避免频繁通知。
使用路由条件过滤低优先级事件。