如何管理故障

本文档主要介绍如何管理故障。

故障发生条件

  • 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。

image

  • 当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。

image

故障过程

故障过程用于记录管理故障处理的全过程。当故障处于处理中/已恢复状态时,故障详情默认进入故障过程tab页;可以对故障的最新进展、故障影响面(影响服务)、舆情反馈、Timeline时间线进行在线化管理、编辑,并同步更新通告及故障状态,确保故障关键进展及时通知至相关人员。

改进分析

改进分析用于记录管理故障恢复后的故障复盘。当故障处于复盘中/已复盘状态时,故障详情默认进入故障改进分析tab页;可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等 ;关联故障期间的故障变更,新增故障改进措施等操作。

故障状态

  1. 处理中:处理中仍未恢复的故障。

  2. 已恢复:故障对处理中的故障做恢复操作后是已恢复状态;故障恢复时间:故障止血/业务影响消除的时间点。

  3. 复盘中:已恢复的故障复盘操作后是复盘中状态。

  4. 已复盘:复盘中的故障做完结操作后是已复盘状态。

  5. 已取消:对故障做取消故障操作后的状态是已取消。

故障操作

基础操作

  1. 恢复:若故障已止血/业务影响已消除;在故障详情页对【处理中】的故障点击恢复按钮设置故障的恢复时间并预览故障通告模板并确认恢复,则故障更新为已恢复状态。

  2. 撤销恢复:当操作故障恢复后却发现故障影响依旧未消除,可在故障详情页对【已恢复】的故障点击撤销,将故障撤销已恢复状态,则故障返回处理中状态。

  3. 复盘:故障恢复后,故障进入复盘阶段;在故障详情页对已恢复】的故障点击复盘按钮,填写复盘负责人,预览故障复盘通告并确认复盘,若复盘成功,故障即变为已复盘状态。

  4. 完结:当故障根因已明确、改进措施已制定、责任人已确定、整体故障相关信息均已确定后,在故障详情页对【复盘中】的故障点击完结变为已复盘状态。

    1. 在完善整体故障信息过程中,若相应人员无法搜索,需在阿里云访问控制(RAM)中添加对应子账号并将对应人员添加至运维事件中心人员管理-人员列表中。

  5. 取消故障:当故障经过排查发现实际业务无影响,被判定为非故障时,可以取消该故障;在故障详情页更多操作里点击取消故障并填写取消故障原因,预览故障取消通告并发送通告,则故障更新为已取消状态。

  6. 故障等级更新:当故障处理过程中或事后复盘,发现故障的影响程度发生变化,在故障详情页可以进行故障等级调整如故障升级或故障降级(P1-P4)。

  7. 变更所属服务:当故障处理过程中或事后复盘,发现故障影响的服务发生变化,在故障详情页更多操作里点击变更服务对影响服务进行变更。

  8. 更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在故障详情页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障通告。

    1. 故障通告是故障协同的关键操作,在故障的处理过程中,需要有意识的进行故障更新通告,确保关心故障状态的相关人员及时知晓故障处理进展。

  9. 新增影响服务:故障处理过程,可以新增、变更故障所影响的服务,确保相关信息准确。

  10. 新增时间线:时间线是指故障从触发到恢复并完成复盘的全路径。

  11. 新增故障改进措施:故障复盘过程中,对当前故障进行总结复盘,设定故障的改进措施,避免类似故障重复发生,形成持续改进的闭环。

    1. 每一个改进措施,需可落地可验收,确保改进措施对提升业务连续性、规避重复类似故障有帮助及效果。

更新故障通告

  1. 故障页面点击故障标题进入故障详情页面。

imageimage

2. 在故障详情页面点击更新故障通知按钮出现故障通告预览弹窗。

3. 在故障通告预览弹窗内选择通告类型,点击确认。

image

新增影响服务

  1. 故障页面点击故障标题进入故障详情页面。

  2. 故障详情页面故障过程里点击新增影响服务按钮出现新增影响服务弹窗。

  3. 新增影响服务弹窗选择影响服务、输入影响描述、选择影响等级、选择恢复状态上传图片,点击确认。

image

  • 影响服务:选择影响服务(可多选,最多10条)。

  • 影响描述:填写影响描述。

  • 影响等级:选择影响等级P1-P4递降

  • 恢复状态:选择故障恢复状态已恢复未恢复

  • 上传图片:图片最多可上传5张。

新增Timeline时间线

  1. 故障页面点击故障标题进入故障详情页面。

  2. 新增单个时间线条目,在故障详情页面故障过程里的时间线下方点击添加图标出现新增时间线条目弹窗。

  3. 新增时间线条目弹窗选择故障节点、设置故障时间线条目发生时间、填写时间线条目具体内容,点击确认image

4. 批量新增时间线条目,在故障详情页面故障过程里的时间线下方点击批量新增按钮出现批量新增时间线条目弹窗。

5. 在批量新增时间线条目弹窗批量输入时间线条目,点击确认

image

批量生成条目节点

  • 时间线条目批量新增格式:【时间,内容】,时间格式:年月日时分,多条回车换行展示,例如:2021-06-01 09:45,张三升级了服务器。

新增故障改进措施步骤

  1. 故障页面点击故障标题进入故障详情页面。

  2. 故障详情页面改进分析里点击新增改进措施按钮出现新增改进措施弹窗。

  3. 在新增改进措施弹窗选择措施类型、输入改进措施内容、输入验收标准,选择验收人计划完成时间负责人跟踪人改进状态,点击确认。

    • 措施类型:选择故障改进措施类型(单选)。

    • 改进措施:输入故障改进措施的内容,限制200字符。

    • 验收标准:输入故障改进措施验收标准,限制200字符。

    • 验收人:选择预案验收人(单选)。

    • 计划完成时间:选择预案的计划完成时间

    • 负责人:选择预案的负责人(单选)。

    • 跟踪人:选择改进措施的跟踪人(单选)。

    • 改进状态:选择故障的改进状态已改进未改进

故障- 改进分析 - 故障改进措施