问题管理

更新时间:
复制为 MD 格式

问题是对告警事件的聚合管理单元。当多个相关告警事件产生时,系统会根据配置的分组规则将其聚合为一个问题,统一进行生命周期管理和通知处理。

功能简介

问题管理的核心能力包括:

  • 告警事件聚合:根据分组规则将相关事件聚合为问题。

  • 生命周期管理:跟踪问题从产生到解决的完整过程。

  • 升级通知:支持多阶段升级策略和重复通知。

  • 协作处理:支持问题认领、转交、添加相关人员。

查看问题

  1. 登录云监控2.0控制台,选择目标工作空间,在左侧导航栏选择告警中心 > 通知管理 > 问题管理

  2. 在问题管理列表,可以查看告警问题处理情况。支持按以下条件筛选问题:

    字段

    说明

    严重等级

    紧急、错误、警告、普通

    问题标题 / ID

    由告警规则或事件订阅的名称决定,ID为自动生成具有唯一性

    通知策略

    通知是通过哪个通知策略发出的

    处理人

    问题接手解决的人

    创建时间

    该问题产生的时间

    解决状态

    当前问题的状态,共有三种状态:

    • 处理中(open):问题正在处理中,持续接收告警事件。

    • 已解决(resolve):问题已被手动解决。

    • 已恢复(recover):问题在指定时间内无新事件产生,自动恢复。

    操作

    支持认领、解决等操作

  3. 在详情中显示了问题基本信息、告警的对象、相关的实体拓扑,问题的内容以及根因分析、关联事件和活动记录。在问题详情页面,可执行以下操作:

    • 对于未解决的告警,可以认领、解决、指定告警处理人或修改告警等级。

    • 在根因分析页面,可以看到基于云监控2.0 starops智能体分析的问题的根因。

    • 事件活动页签可以分别查看以下信息:

      • 事件页签显示了告警关联事件、事件创建时间和事件状态。单击事件名称,可以查看目标事件的详细信息。

      • 活动页签显示了问题的活动记录。

处理问题

在控制台中,对于未解决的问题,可以认领、解决、指定告警处理人或修改告警等级。

  1. 问题页面单击右上角的关联操作人

    • 操作人的名称为钉钉昵称。由于一个阿里云账号可能存在多人同时使用的情况,所以需要通过关联操作人来区分实际每次操作告警的人员。

  2. 使用钉钉扫描弹出的二维码,并绑定手机号。

  3. 在目标问题右侧,或者单击目标问题,在告警问题页面:

    • 单击认领,可以将自己设置为当前问题的处理人。

    • 单击解决,可以关闭目标告警。