问题列表_应用实时监控服务(ARMS)-阿里云帮助中心

问题列表（Problem Insights）通过结合通义大模型、异常检测算法、告警关联分析等技术，自动化地分析系统产生的告警事件，识别故障的根因、影响面，并将相关联的告警事件合并为一个统一的视图，从而帮助运维团队更高效地处理问题，降低故障修复时间，保障系统的可用性。

使用场景

在页面右上角的时间选择框，选择需要查看的时间段。

2025-02-28_14-34-06

在问题列表区域（图示③），您可以查看问题ID、问题名称、等级等信息。单击操作列的详情，可以查看问题详情。

参数	说明

参数	说明
问题 ID	问题的唯一标记，在问题生命周期中保持不变。
问题名称	问题名称可以清晰看出是何原因触发了当前 Problem，问题名称是动态可变化的，随着合并到 Problem 的告警事件而变化，在告警事件数量较少时候，会获取所有告警事件的名称作为 Problem 名称，在告警事件数量较多时候，会获取告警事件的摘要合并后作为 Problem 名称。
等级	根据问题的影响面和严重程度确定，分为 P1~P4 四个等级，P1 表示问题影响面广，严重程度高，P4 表示问题影响面小，严重程度低。
相关实体	问题所影响或者导致问题发生的实体，包括应用接口、数据库、中间件、基础设施、第三方服务等实体。
状态	持续中：问题正在发生。已恢复：和问题相关的告警事件均已得到恢复，问题已解决。已归档：在Problem的最大持续时间内（默认 90 分钟）都未解决，则会超时结束，进入到归档状态。被合并：问题被其他问题合并，如果新产生的 Problem 根因和之前 Problem 一致，则会尝试合并到之前的 Problem 中，如果 Problem 根因不同，则会创建新的 Problem。
影响面	影响面包括从用户入口到后端应用，包括终端用户、前端应用、接口以及后端接口服务等。
关联事件数	当前 Problem 关联的告警事件数量。

2025-02-17_15-55-46

通常一个 Problem 的根因是多方面的，Problem 会不断基于各类异常调用链，指标等进行分析，找出可能的因素，最终会计算不同因素的贡献度，基于这个贡献度对因素进行排序，从而得出疑似根因列表。

一个疑似根因包含以下信息：

单击采纳，Problem会保存当前建议，后续做类似根因分析时会考虑当前因素。反之单击弃用，则会忽略当前因素。

说明

Copilot 分析通过意图识别功能，自动调用相应领域的 Copilot 来实现精准服务。

针对疑似根因，Problem默认会定位到实例指标级别，如果需要进一步分析到方法级别，可以单击图标，结合 ARMS 的持续剖析能力，进行进一步的根因分析。

传播路径通过可视化的方式展示了事件从发生实体到根因实体的完整链路。其中根因实体使用红框标出，箭头的方向表示了故障传播的方向。将鼠标悬浮在实体图标上，可以查看该实体的相关信息，例如实体上发生的事件、实体的RED指标等。

影响面分析分为服务端影响面和用户体验影响面两个部分。

服务端影响面：依托于服务间调用的拓扑图，从故障根因出发，往上游回溯，定位出所有受影响的服务节点。而判断是否受影响的标准，则是通过分析上下游节点之间的RED指标相似度，同时结合指标异常检测算法，以确保影响面评估的准确性，在此基础上也可以描绘出故障传播的路径，为高效定位问题提供有力支持。
用户体验影响面：借助RUM端到端链路打通，实现服务端Trace与RUM数据的关联，从而准确评估故障持续期间受影响的用户请求，并进一步分析受影响的终端用户、前端页面以及接口，结合RUM丰富的数据维度，可以进行多种维度分析，为故障影响面分析提供数据支撑。

服务端影响面，重点是给出所有受影响的服务节点（如xx应用xx接口），和每个节点故障期间受影响的访问量、错误率、缓慢占比等核心指标，以及环比的数据变化。此外，还包含受影响的调用链、涉及的应用，以及核心指标整体趋势变化等数据

用户体验影响面分为终端用户、前端应用和前端接口三个部分。

展示受影响的终端用户的相关指标，包括受影响的会话、页面、访问量指标，以及受影响的用户的分布情况，例如地域、设备、APP版本等。

展示受影响的前端应用的相关指标，包括应用对应的版本、类型、访问量、缓慢占比、类型分布等情况。

展示受影响的前端接口的相关指标，包括访问量、错误率、缓慢占比等核心指标，以及状态码分布情况等。

说明

当前关联事件源来自于 ARMS 的告警事件源，暂不支持 Prometheus、SLS 等其他事件源。

关联事件是指与当前问题相关联的事件，基于时间相关性，空间相关性，实体相关性等，从海量事件中筛选出与当前问题相关的所有事件。

关联事件列表包含以下信息：