日志服务告警系统支持告警智能合并,在不遗漏重要告警的前提下,有效减少告警数量。本文介绍基于告警智能合并的告警降噪管理方案。

简介

在监控场景下,一旦出现告警风暴,告警本身就会失去意义和价值。日志服务告警智能合并功能,支持一键开启,用于抑制告警风暴。

告警智能合并通过智能算法自动合并,将重复、冗余或者有关联的告警合并到一个分组中,并且每个分组的告警在一段时间内只会通知一次,从而有效减少告警通知的数量。

告警智能合并在最小化您的配置成本的同时,还会通过机器学习、NLP算法,自动学习告警之间的关联或相似关系进行合并,达到智能降噪的效果。告警智能分组合并

工作流程

告警智能合并主要包括如下流程。

智能分组合并
  1. 多源告警数据汇集:汇集不同来源的告警数据,进行集中处理。
  2. 告警文本预处理:基于告警专业特色词/停用词库、数据字典、人工标注信息等,对告警全文本进行预处理,剔除无用文本,提取关键词。
  3. 告警文本聚类:采用两种不同的聚类技术对告警文本进行聚类。
    • MinJoin聚类算法:通过最小化局部哈希值进行文本编辑距离计算及聚类。
    • 向量相似度聚类:首先对告警文本进行分词,然后利用特征工程将其向量化表示,最后基于告警向量之间的相似度(如余弦相似度等)进行聚类。
  4. 聚类簇合并:将上述得到的聚类结果进行合并,获得告警智能合并的最终结果。

操作步骤

您可以在设置告警策略时,打开智能合并模式开关。

  1. 登录日志服务控制台
  2. 进入告警策略页面。
    1. 在Project列表区域,单击目标Project。
    2. 在左侧导航栏中,单击告警
    3. 选择告警管理 > 告警策略
  3. 告警策略页签中,单击添加
  4. 添加策略对话框中,打开智能合并模式开关并配置相关参数,然后单击确认
    参数说明,请参见告警智能分组合并告警智能放分组合并
    开启智能合并后,可实现有效的告警降噪。您可以通过告警通知、全局告警链路中心等查看告警降噪效果,示例如下:
    • 告警通知

      例如基于OSS公网访问告警监控规则,共触发了11条告警,通过智能合并模块处理后,这11条告警被合并为同一条告警进行发送,实现告警降噪。

      告警通知
    • 全局告警链路中心
      基于下述告警链路图,可知初始状态下累计触发了近16,000次告警,在经过降噪模块的智能合并、去重、静默和路由处理后,仅通知用户374次,降噪比近98%,有效避免告警风暴问题,提升运维人员的处理效率。告警智能合并