首页 >运维事件中心 >事件中心 >故障 >故障协同处理(基于钉钉)

故障协同处理(基于钉钉)

本文主要介绍什么是故障协同处理。

云钉运维故障协同效果

功能概述

移动应用端(目前仅支持“钉钉”,以下功能说明均基于钉钉场景)支持接收故障消息提示和进行故障操作,且支持移动端操作管理故障,操作记录实时同步到运维事件中心控制台。

故障协同处理使用条件

  • 成功开通钉应用。具体开通方法见如何开通移动端协同应用

  • 运维事件中心中配置服务组关联的企业钉群,基于此群进行故障协同处理。

  • 事件升级故障后生成故障。

故障协同处理使用步骤

说明

以下步骤为已开通移动应用(钉钉),且服务组关联的webhook群为企业内部群。

1. 事件升级故障H5界面:事件已响应消息卡片点击详情按钮进入事件详情H5界面,可点击更多-升级故障按钮实现事件升级故障的操作;事件已完结消息卡片,点击补录故障按钮可实现事件升级故障的操作。

注意

如果此事件点击升级故障按钮后,则生成故障;又点击完结按钮,则出现补录故障按钮,点击补录故障按钮则直接跳转到已经生成的故障详情H5界面。

1

2. 故障应急场景群:事件升级故障后,群内推出故障处理中消息卡片,如果满足自动生成故障场景群的需求(下文详细介绍创建故障场景群逻辑),故障场景群内同时推出故障处理中消息卡片。

  • 本群故障消息卡片包含按钮:签到、签到记录、应急作战室和加入场景群

  • 故障场景群消息卡片包含按钮:签到、签到记录和应急作战室

23

故障应急场景群名称:同当前故障名称一致。

故障应急场景群成员:故障提交人、主要处理人和应急协同组内成员(没有分配服务组则忽略)。

故障应急场景群创建群场景分析:

  • 被拉取人员全部没有授权维蜜,则此群无法创建。

  • 被拉取人员部分授权维蜜,则此群只拉取到授权维蜜的人员。

  • 若其他人员点击加入场景群按钮,此人已经授权维蜜,则此人可以手动创建故障场景群。

  • 若他人员点击加入场景群按钮,此人没有授权维蜜,则此人不可以手动创建故障场景群,弹出提示窗口提示此人需通知此故障关联人员及时授权维蜜。

  • 若故障应急场景群已经创建,群人员点击加入场景群按钮,弹出提示窗口是否确认进群,确认后则可入群。

  • 若故障应急场景群已经创建,人员已经在群内,点击加入场景群按钮,弹出提示窗口提示您已经进群,且自动跳转到此群聊天界面。

3. 故障处理中消息卡片:包含两个主按钮:应急作战室和加入场景群;两个子按钮:签到和签到记录

  • 应急作战室按钮:点击进入故障详情H5界面。

  • 加入场景群按钮:点击可创建/加入故障应急场景群,创群和进群的场景分析见第2条。

  • 签到按钮:点击可签到,每个用户对于当前此故障,只可签到一次。

  • 签到记录按钮:点击可查看此故障的人员签到记录。

4. 应急作战室-故障详情:点击进入故障详情H5界面,故障详情包含模块有:

(1)故障详情H5界面:故障详情界面展示故障的基础信息。

说明

故障场景群即应急作战群,故障详情即应急作战室。

5
  • 加入按钮:点击加入按钮,若不是此故障应急场景群成员,则弹出提示窗口是否确认进群,确认后则可入群;若已是此故障应急场景群成员,弹出提示窗口提示您已经进群,且自动跳转到此群聊天界面。

  • 恢复按钮:需首先完成故障过程的四个子模块(过程详情、故障影响面、故障状态、时间线),才可点击恢复按钮。

  • 更多按钮:包含编辑按钮、变更服务按钮和取消故障按钮。

(a)编辑按钮:可编辑故障的名称和优先级。

(b)变更服务按钮:可变更故障关联服务。

(c)取消故障按钮:故障一旦取消,则此故障不支持任何操作。

(2)故障过程H5界面:故障过程包含过程详情、故障影响面、故障状态和时间线四个子模块,点击恢复按钮前需校验四个模块的内容完成情况,全部完成后则可进行故障的复盘。恢复故障后可支持撤销恢复故障,此时恢复按钮变成撤销恢复按钮。点击复盘按钮前也需要校验这四个模块是否完成必填内容。

  • 过程详情:展示故障详情。点击编辑按钮则可补全过程详情必填信息。主要处理人和应急协同组是故障应急场景群的默认需要拉取的群成员。

3
  • 故障影响面:展示故障影响服务。点击编辑按钮新增影响服务,则可跳转新增影响服务详情页新增服务。

1
  • 故障状态:展示故障实时状态变化,PC端和移动端故障状态保持一致,分为四个故障操作节点记录故障状态变换,方便用户查询操作记录。

1
  • 时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生、故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。

1

复盘按钮:故障恢复后,需进行故障复盘,点击复盘按钮选择复盘人即可。复盘状态不可逆。

(3) 改进分析H5界面:改进分析包含原因检查、分析详情和改进措施三个子模块。点击复盘完成按钮前需校验三个模块的内容完成情况,全部完成后则可进行故障的复盘。

  • 原因检查:展示故障发生原因和故障恢复方式等故障详情。

1
  • 分析详情:展示监控来源和故障相关人等故障详情。

1
  • 改进措施:逐条填写改进措施,至少新增一条改进措施。

5

(4) 故障动态H5界面:故障动态和PC端故障动态保持一致,PC端和移动端对于故障的关键操作和数据修改统一同步记录。

7

(5) 备注详情H5界面:备注详情可新增备注,记录备注详情内容。

9

5. 故障应急场景群:事件升级故障后自动创建故障应急场景群,在原有群聊和生成的故障场景群都支持操作故障,且故障关联数据和消息卡片实时同步推送。故障场景群包含以下三部分功能:

(1)消息卡片自动推送

  • 场景群创建成功后,群机器人自动推送故障处理中消息卡片,卡片包含签到、签到记录、时间线、应急作战室按钮,其中时间线可跳转故障H5详情的时间线界面。

  • 群机器人同时自动推送群角色分工消息卡片,介绍此群成员。

8
说明

每个消息卡片支持艾特人员,保证运维人员及时收到自己的消息通知。

(2)群吊顶:群吊顶展示此故障的基础信息,包括:故障全称、故障等级、当前处理人和故障持续时间。随着故障状态和数据的变换自动更新故障详情。切换其他群聊再回到此群即可刷新群吊顶内容。

9

(3)群插件:群插件基于故障场景群的业务需求,设置三个群插件:应急作战室、时间线和签到,为故障处理创建多个入口,便于用户快速响应故障。

  • 应急作战室:点击跳转故障H5详情,可进行故障操作。

  • 时间线:点击跳转故障时间线界面,便于用户直接查看当前故障的处理情况。

  • 签到:点击进行此故障的签到,每个用户只可以签到一次。

5

(4)群机器人:群机器人可自动推送消息卡片,也可艾特机器人进行个性化查找。目前群机器人支持推送两种查询内容:查询近期故障和查询值班表。

  • 查询近期故障:@机器人 ,推送故障处理引导链接,点击近期故障查询蓝色链接,可跳转H5查看最近7天的故障列表。故障列表展示字段包括:故障等级、故障名称和故障状态,点击故障名称可跳转故障详情界面。

6
  • 查询值班表:@机器人 值班/排班,推送今日的值班表查询,查询的值班表仅限于本群关联的应急协同组,包含字段有:服务组名称、值班班次和当前值班人。

9
阿里云首页 运维事件中心 相关技术圈