ARMS告警管理的智能降噪功能能够帮助您从大量历史事件中挖掘出重要的事件。同时,结合噪音事件阈值(信息熵阈值)的设定,您也可以完成噪音事件的过滤和屏蔽。您只需要一键式开启,即可体验开箱即用的智能降噪能力。本文介绍如何开启并配置智能降噪功能。
背景信息
目前,市面上各监控工具一般通过设定阈值或动态阈值的方式,识别指标异常并触发告警事件。各监控工具通常也会支持设定默认规则,触发监控工具预设的规则事件,例如:机器重启。运维团队往往不会依赖一套监控工具,而会选择不同工具,设定对应的监控告警。在这样的背景下,由于设定的监控源和监控工具多,往往导致相同的故障原因在各大监控工具的不同监控规则下,触发出大量重复、冗余的告警事件。在发生大范围故障时,甚至会形成告警风暴。运维人员很难从这些海量告警中,快速有效地识别出到底哪些告警事件是重要的,这也往往导致有效告警被淹没。
- 多处监控、告警源,以及频繁误报导致大量重复、冗余、低效事件,而重要事件淹没在其中,无法有效识别。
- 大范围故障导致告警风暴。
- 测试事件等脏数据,混杂在事件中。
智能降噪的实现原理
ARMS告警管理可以将不同告警源收归到统一平台进行告警事件的处理,包含事件处理流,事件的智能降噪等功能。其中智能降噪利用自然语言处理算法,基于信息论中的信息量和信息熵(信息熵是自信息的期望值,用来表征事件包含的信息量的多少,单位为bit或nats。)的概念来表征事件的重要性,帮助您从大量历史事件中挖掘出重要的事件。同时,结合信息熵阈值的设定,您也可以完成噪音事件的过滤和屏蔽。您只需要一键式开启,即可体验到开箱即用的智能降噪能力。随着时间的演进、事件类型和内容变化,模型也将自适应并定期实现迭代式更新(更新频率为每周一次),无需您进行任何操作。
- 基于自然语言处理和领域词汇库,完成事件内容的词向量化,实现事件最小粒度的度量。
- 基于信息论中信息熵的概念,结合TF-IDF模型,构建词向量的信息熵值和重要性度量模型。
- 利用SIGMOD,完成事件的非线性和归一化“信息熵”度量。
- 结合历史事件的处理记录和反馈,构建模型迭代训练。
开启智能降噪
查看智能降噪详情
参数 | 说明 |
---|---|
已分析事件 | 智能降噪功能已分析过的事件数量。 |
已识别噪音事件 | 事件信息熵低于设定信息熵阈值(默认信息熵阈值为0)的事件,统称为噪音事件。 |
噪音事件识别比例 | 噪音事件占已分析事件的比例。 |
事件信息熵分布图 | 显示噪音事件和非噪音事件的分布情况。 |
分析结果 | 您可以在分析结果区域查看已分析事件列表,并可以通过是否为噪音事件、信息熵等参数筛选需要查看的事件。单击事件所在行可以查看事件的详细信息。 |
常见词Top 50 | 根据历史事件的统计学习,模型会保存一份事件词汇的词频表。常见词则是词频表按照出现频率大小排序,选择Top 50进行展示。通过常见词,您可以更详细的了解当前账号下的告警事件,并参考常见词设置智能降噪的优先词和屏蔽词。 |
配置智能降噪模型参数
在智能降噪详情页面您可以配置噪音事件阈值、优先词和屏蔽词。
参数 | 说明 |
---|---|
噪音事件阈值 | 开启智能降噪后,ARMS告警管理会对每一条新事件计算信息熵值。噪音事件阈值设定是划分噪音和非噪音事件的分界线。默认噪音事件阈值为0。 |
优先词 | 在关键词设定中,您可以设定想要优先看到的词汇,例如:重要、Critical等。当发生事件的事件名称和事件内容包含设定的优先词时,当前事件的优先级相对应提高,避免事件被识别成噪音事件。 |
屏蔽词 | 在关键词设定中,您可以设定一些您认为不重要的词汇,例如:测试、Test等。当发生事件的事件名称和事件内容包含设定的屏蔽词时,当前事件会被直接认定为信息熵为0,如果噪音事件阈值设定大于0,则当前事件会被认定为噪音事件。 |
常见问题
- 什么时候开启智能降噪功能?
已经存在大量历史事件,同时事件中存在大量的重复、冗余,或无法识别重要事件。
内部实践发现从历史事件数量超过1000开始,模型效果逐步变优。
- 是否需要修改模型参数(噪音事件阈值、优先词和屏蔽词)?
建议在初期使用智能降噪时不修改模型参数,采用默认值即可。在了解功能后,可以尝试设定优先词和屏蔽词,以及噪音事件阈值,实现更多定制化的需求。