故障基础数据管理
故障场景等级定义
日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。
定义故障等级是为了指定故障等级定义作为各业务的安全生产法则,推进各业务稳定性提升。如评判各业务团队的故障发现能力的标准就是故障等级定义的监控发现率等。在定义故障等级的时候,需要从功能等级、业务体量、业务特性、量化影响4个维度进行设计,一个简要的通用故障等级定义参考模板如下:
业务量级 | 功能分类 | 影响面 | P1 | P2 | P3 | P4 |
大体量 | 核心功能 | 成功率下跌30%及以上 | P1 | |||
成功率下跌20%~30% | P2 | |||||
成功率下跌20%以下 | P3 | |||||
非核心功能 | 成功率下跌30%及以上 | P2 | ||||
成功率下跌20%~30% | P3 | |||||
成功率下跌20%以下 | P4 | |||||
小体量 | 核心功能 | 10分钟内总体成功率下跌45%及以上 | P1 | |||
10分钟内总体成功率下跌30%~45% | P2 | |||||
10分钟内总体成功率下跌30%以下 | P3 | |||||
非核心功能 | 10分钟内总体成功率下跌45%及以上 | P2 | ||||
10分钟内总体成功率下跌30%~45% | P3 | |||||
10分钟内总体成功率下跌30%以下 | P4 |
故障场景监控覆盖
基于故障等级定义场景,配置对应的监控项接入7*24监控值班,同时对接入的监控数据额外提供基于算法的智能告警,或者接入研发可自闭环的风险预警,保障业务故障的监控发现率,减少故障持续时间,降低故障影响。
为保障故障发现率,故障场景监控覆盖率建议维持在95%以上。
服务组&值班表管理
将故障应急的相关人员群体,通过前置到故障场景的干系人做绑定配置,同时支持服务组和值班表,实现故障启动后自动快速通知负责人上线处理的效果。
在设计相应的管理方案时,需要考虑以下内容:
服务组:提供服务的人员群体,服务包括故障处理,工单处理等
值班表:可以对服务组成员进行排班,让故障应急工作更有计划性、不易遗漏
升级组:服务组的一种,通过服务组和升级组,可表达组与组之间的升级路径
服务组与故障业务线的关系:一个服务组对应故障中一个角色,但可以服务多条故障业务线
服务组与工单问题分类的关系:一个服务组可以服务工单多个问题分类
服务组与组织架构的关系:一个服务组可以服务多个组织架构,一个组织架构可以拆分为多个服务组
故障订阅管理
故障通告订阅是用来维护故障通告接收对象,可根据不同的条件发送不同的渠道。故障订阅可以分为3种类型的对象:个人、干系人角色、钉钉群或其他通知渠道。通过合理的配置故障通告和订阅,能够确保相关干系人及时收到告警。