故障发现

更新时间:

7*24监控值班

对于有条件的企业,可以设立全球运行指挥中心(Global Operations Center,简称GOC),实现7*24监控值班,时刻关注核心业务线上异常与故障。对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工判断,及时识别风险或故障,以风险预警和故障通告的形式快速调度应急负责人上线处理,避免业务受损或降低业务受损程度。

之所以设立7*24监控值班,是因为报警准确率无法达到100%。为了保证触达业务研发的电话报警准确度、降低无效打扰,需要人工判断是否真实异常;各业务对故障的重视程度都非常高,误发、漏发故障都会产生较大影响,故障需要人工确认发送保证准确;故障处理过程需要人工组织跟进;故障应急争分夺秒,Oncall时效难以保障。7*24监控值班的主要考核指标有:通告及时率、通告准确率、快恢执行率。

智能基线告警

智能基线告警是一套集成了统计学方法与机器学习算法,自动学习指标数据的历史规律,进而检测曲线异常突变的智能化告警;针对具备周期规律的监控指标,智能基线告警相比自定义告警规则,具备较高的异常检测准确率。

智能基线报警特点:

  • 无需人工配置报警规则,基于曲线指标的历史数据自动生成异常检测参数实现报警;

  • 抑制短暂冲高回落引发的误报,对应大促时业务指标冲高的业务场景;

  • 抑制周期性误报,当跌落型异常在同一时刻持续多天时抑制该报警,对应每天大促或消息型任务每天定时跌落的业务场景。

建议重点覆盖成功(总)量、成功(失败)率、失败量三类场景的业务指标。