本文介绍了如何通过告警的历史告警总览大盘和告警处理效率总览大盘提高告警处理效率。
背景信息
企业在处理系统告警时,经常会遇到以下痛点:
如何查看过去一段时间系统发生了哪些告警,哪类告警占比较高。
告警配置没有收敛,多人在多个系统配置了多个告警。如何只查看我关心的告警以及对应的处理情况。
制定了值班机制,无法衡量值班人员告警处理的效率,如何确保值班机制的执行效果。
一个服务在多个系统中配置了多个告警,无法从服务的维度来查看告警的处理效率,查看服务的SLA。
在针对性的系统优化后告警占比是否降低,告警的持续时间占比是否得到改善。
日常运维通常采用下面几个指标来衡量告警的处理效率和服务的稳定性。通过给告警打标签,从不同的维度统计这些指标,从而衡量告警的处理效率。除此之外ARMS还将告警处理人自动关联到告警中,这样就可以统计不同人员对于告警的处理情况。
MTTx
MTTD:告警平均发现(检测)耗时,告警管理接收到告警的时间减去告警真实发生的时间。
MTTA:告警平均确认(认领)耗时,告警第一次认领的时间减去告警真实发生的时间。
MTTR:告警平均恢复(关闭)耗时,告警恢复的时间减去告警真实发生的时间。
服务可用率(SLA)
服务可用率计算公式:可用率=系统可用时长/(系统可用时长+系统不可用时长)
单个告警无法计算服务可用率,只有将同一类告警前后多次发生的持续时间进行累计计算后才能针对这类告警计算服务可用率指标。ARMS告警管理使用一组标签来确定唯一一个告警,当标签相同时认为是同一个告警,持续时间内自动去重并累加持续时间,持续时间外前后多次发生视为2个告警,但归为一类告警。在固定的时间窗口内,单类告警的可用率可以计算为,如果包含多类告警则大盘展示的最终可用率指标为。
ARMS告警大盘
当用户使用ARMS告警管理来统一收集和处理各个系统的告警后,ARMS告警管理会自动收集这些告警的生命周期和用户的处理数据,并通过Grafana大盘将这些数据可视化出来。帮助您了解告警的分布和处理情况,从而提高系统稳定性。
历史告警总览大盘
您可以在ARMS控制台 页面的历史告警总览页签查看历史告警总览大盘。
在历史告警总览页面您可以通过筛选时间查看告警分布,或通过任意标签维度查看告警的MTTx指标和SLA指标。
通过筛选时间查看告警分布
在历史告警总览页面右上角,您可以筛选时间范围选择查看指定时间段的告警分布情况。
告警分布默认通过告警名称(labels_alertname)统计告警数量,您可以通过编辑每日告警趋势面板修改统计维度。
例如,如果您需要通过告警等级维度统计告警分布情况,操作如下:
单击每日告警趋势面板名称,然后单击Edit。
修改PromQL查询语句,将告警名称(labels_alertname)替换为告警等级(labels_severity)。
通过任意标签维度查看告警的MTTx指标和SLA指标
查看告警事件支持的标签。
在
页面单击目标事件名称。事件详情面板扩展字段区域的所有字段均可作为筛选标签。
在告警概览的历史告警总览页签,设置指定的标签Key和Value。
例如:
查看clustername等于cmonitor-online-test-shanghai的所有告警事件。
同时查询clustername等于cmonitor-online-test-shanghai且severity等于default的告警事件。
告警处理效率总览大盘
您可以在ARMS控制台 页面的告警处理效率总览页签查看告警处理效率总览大盘。
告警处理效率总览大盘左侧区域(图示中①)为每个告警处理人员的处理效率指标,右上区域(图示中②)为每个服务各告警维度的处理指标,右下区域(图示中③)为告警明细。
查看告警处理人员的MTTx指标:
只有通过钉钉、企业微信、飞书来处理的告警才能将告警和人员进行关联,从而对每个人员的告警指标进行统计。更多信息,请参见在告警通知群中处理告警。
查看服务维度的告警MTTx指标:
在实际的使用过程中,往往一个服务会配置多个告警,ARMS告警管理支持将这些告警合并到一起来计算服务维度的告警统计数据。ARMS告警管理通过事件处理流给告警添加业务标签,添加了业务标签的告警ARMS会自动统计服务业务维度的告警。更多信息,请参见事件处理流。