问题列表(Problem Insights)通过结合通义大模型、异常检测算法、告警关联分析等技术,自动化地分析系统产生的告警事件,识别故障的根因、影响面,并将相关联的告警事件合并为一个统一的视图,从而帮助运维团队更高效地处理问题,降低故障修复时间,保障系统的可用性。
使用场景
复杂告警的处理
在分布式系统中,故障往往通过复杂的调用链传导,导致多处发出告警。Problem Insights 帮助运维团队快速聚焦关键问题,减少告警噪音。
故障根因定位
通过智能分析告警事件,自动化地识别故障的根因,减少手动排查时间。
故障影响面评估
帮助运维团队快速评估故障的影响范围,确定优先级和处理策略。
故障预防与预警
定时巡检系统告警事件,提前发现潜在问题,避免故障发生。
团队协作与知识沉淀
提供统一的故障视图和处理记录,支持团队协作和故障复盘。
当前支持范围
事件支持:当前只支持来自于应用监控的告警事件。
应用支持:当前只支持通过 ARMS 探针接入的应用,不支持使用 Opentelemetry SDK 方式接入的应用。
查询问题列表
登录ARMS控制台。
在左侧导航栏选择
。在页面右上角的时间选择框,选择需要查看的时间段。
在快捷筛选区域(图示①),您可以按问题状态、相关实体、告警名称、告警规则ID、指标名称、发现根因等维度进行筛选。
在趋势图区域(图示②),您可以查看指定时间段内问题的变化趋势。
在问题列表区域(图示③),您可以查看问题ID、问题名称、等级等信息。单击操作列的详情,可以查看问题详情。
参数
说明
参数
说明
问题 ID
问题的唯一标记,在问题生命周期中保持不变。
问题名称
问题名称可以清晰看出是何原因触发了当前 Problem,问题名称是动态可变化的,随着合并到 Problem 的告警事件而变化,在告警事件数量较少时候,会获取所有告警事件的名称作为 Problem 名称,在告警事件数量较多时候,会获取告警事件的摘要合并后作为 Problem 名称。
等级
根据问题的影响面和严重程度确定,分为 P1~P4 四个等级,P1 表示问题影响面广,严重程度高,P4 表示问题影响面小,严重程度低。
相关实体
问题所影响或者导致问题发生的实体,包括应用接口、数据库、中间件、基础设施、第三方服务等实体。
状态
持续中:问题正在发生。
已恢复:和问题相关的告警事件均已得到恢复,问题已解决。
已归档:在Problem的最大持续时间内(默认 90 分钟)都未解决,则会超时结束,进入到归档状态。
被合并:问题被其他问题合并,如果新产生的 Problem 根因和之前 Problem 一致,则会尝试合并到之前的 Problem 中,如果 Problem 根因不同,则会创建新的 Problem。
影响面
影响面包括从用户入口到后端应用,包括终端用户、前端应用、接口以及后端接口服务等。
关联事件数
当前 Problem 关联的告警事件数量。
问题详情
问题概览:展示问题基本信息,包括ID、时间和受影响组件。
根因诊断:提供详细的分析结果,直指问题根源。
传播路径:可视化展示系统组件关系,辅助理解问题传播路径。
影响面:展示从前端应用入口到后端接口服务的全链路影响面,掌握问题影响范围。
如前端应用未接入用户体验监控,则无法查看前端影响面。
关联事件列表:列出与当前问题相关的其他事件,提供更广泛的上下文。
根因诊断
通常一个 Problem 的根因是多方面的,Problem 会不断基于各类异常调用链,指标等进行分析,找出可能的因素,最终会计算不同因素的贡献度,基于这个贡献度对因素进行排序,从而得出疑似根因列表。
一个疑似根因包含以下信息:
影响的实体,例如应用实例,接口服务等。
影响的时间范围以及异常的指标。
具体的实体列表,可能是一些应用实例,也可能是异常的调用链路信息。
单击采纳,Problem会保存当前建议,后续做类似根因分析时会考虑当前因素。反之单击弃用,则会忽略当前因素。
Copilot 分析
Copilot 分析通过意图识别功能,自动调用相应领域的 Copilot 来实现精准服务。
针对疑似根因,Problem默认会定位到实例指标级别,如果需要进一步分析到方法级别,可以单击图标,结合 ARMS 的持续剖析能力,进行进一步的根因分析。
单击
图标,Problem会自动获取分析异常时间段内的实例的持续剖析数据,经过数据清洗、内容富化之后使用最新的通义千问大模型进行分析,生成初步的根因分析报告。
根据 Copilot 给出的下一步分析建议,可以查看 CPU,内存,火焰图相关数据,也可以分析 JVM 参数配置是否合理。
传播路径
传播路径通过可视化的方式展示了事件从发生实体到根因实体的完整链路。其中根因实体使用红框标出,箭头的方向表示了故障传播的方向。将鼠标悬浮在实体图标上,可以查看该实体的相关信息,例如实体上发生的事件、实体的RED指标等。
影响面
影响面分析分为服务端影响面和用户体验影响面两个部分。
服务端影响面:依托于服务间调用的拓扑图,从故障根因出发,往上游回溯,定位出所有受影响的服务节点。而判断是否受影响的标准,则是通过分析上下游节点之间的RED指标相似度,同时结合指标异常检测算法,以确保影响面评估的准确性,在此基础上也可以描绘出故障传播的路径,为高效定位问题提供有力支持。
用户体验影响面:借助RUM端到端链路打通,实现服务端Trace与RUM数据的关联,从而准确评估故障持续期间受影响的用户请求,并进一步分析受影响的终端用户、前端页面以及接口,结合RUM丰富的数据维度,可以进行多种维度分析,为故障影响面分析提供数据支撑。
服务端影响面
服务端影响面,重点是给出所有受影响的服务节点(如xx应用xx接口),和每个节点故障期间受影响的访问量、错误率、缓慢占比等核心指标,以及环比的数据变化。此外,还包含受影响的调用链、涉及的应用,以及核心指标整体趋势变化等数据
用户体验影响面
用户体验影响面分为终端用户、前端应用和前端接口三个部分。
终端用户
展示受影响的终端用户的相关指标,包括受影响的会话、页面、访问量指标,以及受影响的用户的分布情况,例如地域、设备、APP版本等。
前端应用
展示受影响的前端应用的相关指标,包括应用对应的版本、类型、访问量、缓慢占比、类型分布等情况。
前端接口
展示受影响的前端接口的相关指标,包括访问量、错误率、缓慢占比等核心指标,以及状态码分布情况等。
关联事件列表
当前关联事件源来自于 ARMS 的告警事件源,暂不支持 Prometheus、SLS 等其他事件源。
关联事件是指与当前问题相关联的事件,基于时间相关性,空间相关性,实体相关性等,从海量事件中筛选出与当前问题相关的所有事件。
关联事件列表包含以下信息:
开始时间:事件发生的时间。
相关实体:事件影响的实体,例如受影响的应用实例或接口服务。
事件描述:事件的详细描述,例如慢查询的 SQL,或异常调用链的调用链路。
- 本页导读 (1)
- 使用场景
- 当前支持范围
- 查询问题列表
- 问题详情
- 根因诊断
- 传播路径
- 影响面
- 关联事件列表