问题是对告警事件的聚合管理单元。当多个相关告警事件产生时,系统会根据配置的分组规则将其聚合为一个问题,统一进行生命周期管理和通知处理。
功能简介
问题管理的核心能力包括:
告警事件聚合:根据分组规则将相关事件聚合为问题。
生命周期管理:跟踪问题从产生到解决的完整过程。
升级通知:支持多阶段升级策略和重复通知。
协作处理:支持问题认领、转交、添加相关人员。
查看问题
登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择。
在问题管理列表,可以查看告警问题处理情况。支持按以下条件筛选问题:
字段
说明
严重等级
紧急、错误、警告、普通
问题标题 / ID
由告警规则或事件订阅的名称决定,ID为自动生成具有唯一性
通知策略
通知是通过哪个通知策略发出的
处理人
问题接手解决的人
创建时间
该问题产生的时间
解决状态
当前问题的状态,共有三种状态:
处理中(open):问题正在处理中,持续接收告警事件。
已解决(resolve):问题已被手动解决。
已恢复(recover):问题在指定时间内无新事件产生,自动恢复。
操作
支持认领、解决等操作
在详情中显示了问题基本信息、告警的对象、相关的实体拓扑,问题的内容以及根因分析、关联事件和活动记录。在问题详情页面,可执行以下操作:
对于未解决的告警,可以认领、解决、指定告警处理人或修改告警等级。
在根因分析页面,可以看到基于云监控2.0 starops智能体分析的问题的根因。
在事件和活动页签可以分别查看以下信息:
事件页签显示了告警关联事件、事件创建时间和事件状态。单击事件名称,可以查看目标事件的详细信息。
活动页签显示了问题的活动记录。
处理问题
在控制台中,对于未解决的问题,可以认领、解决、指定告警处理人或修改告警等级。
在问题页面单击右上角的关联操作人。
操作人的名称为钉钉昵称。由于一个阿里云账号可能存在多人同时使用的情况,所以需要通过关联操作人来区分实际每次操作告警的人员。
使用钉钉扫描弹出的二维码,并绑定手机号。
在目标问题右侧,或者单击目标问题,在告警问题页面:
单击认领,可以将自己设置为当前问题的处理人。
单击解决,可以关闭目标告警。