故障应急协同

更新时间:

故障通告及更新

基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。

故障应急协同群

故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群后的成员,可直接在群内签到。每个故障建议设置单独的故障处理群,群内成员均为故障的相关人,为故障的协同处理提供了天然的协同环境。

故障应急协同群贯穿整个故障处理过程:7*24故障启动 -> 自动创建应急协同群 -> 自动拉人/通知 -> 定位信息/止损预案推送 -> 一键电话会议 -> 故障直播间 -> 故障恢复应急结束指标汇总。

故障应急过程中的重点角色和职责有:

  • 故障处理人(技术支持、监控值班):负责故障应急启动、确保应急有序、协调各方资源确保故障快速恢复;同时,在应急过程中,及时更新故障直播间内容,确保各方能够及时获取故障相关信息;同时视情况做好故障升级预告;

  • 应急处理人(研发、测试、稳定性接口人等):根据应急指挥人明确的分工,负责故障定位、快速恢复,按照SLA的要求响应故障、兜底同步进展;

  • 应急指挥人:根据故障等级由不同人员担任,如P1P2故障由业务部门稳定性负责人或值班长承担;P3P4由技术团队TL或团队指定稳定性接口人承担。在故障发生时,第一时间(5分钟内)指定应急处理人的分工(A负责排查原因、B负责快速恢复、C负责同步进展),协调故障快速恢复,兜底同步故障进展。注意:在应急止血过程中,止血动作造成的影响不得大于故障本身的影响。