健康度使用指南-云监控(CMS)-阿里云帮助中心

本文介绍如何使用云监控 2.0 的实体健康度功能，包括健康度列表、巡检配置、阈值设置、健康详情时间线和影响面分析。

功能概述

云监控 2.0 的健康度功能以红绿灯的形式直观展示所有应用的健康状态，帮助您快速识别有问题的实体。通过配置巡检规则和阈值，系统会自动检测应用的健康状况，并在发现异常时生成健康事件。您可以通过健康度列表、时间线和影响面等视图，全面了解应用的健康状况和影响范围。

进入健康度视图

登录云监控 2.0 控制台，进入目标工作空间。
在左侧导航栏，单击实体探索。
在页面右上角，单击健康度，切换到健康度视图。
切换成功后,页面以红绿灯形式展示所有应用的健康状态。

查看健康度列表

在健康度列表页面，您可以查看所有应用的健康状态统计和详细列表。

界面说明

健康度列表页面包含以下内容:

顶部统计栏: 显示实体总数、正常数量、警告数量和严重数量的统计信息。
应用列表: 以卡片形式展示所有应用,通过颜色标识健康状态:
- 绿色: 正常。各项指标正常，或未配置/未开启健康度规则。
- 黄色: 警告。存在需要关注的异常。
- 红色: 严重。存在紧急问题，可能影响业务。
功能入口: 页面右上角提供阈值设置和巡检配置按钮,用于配置健康度规则和阈值。

配置巡检规则

巡检配置用于管理健康度检测规则。您可以根据业务需求启用或禁用内置规则,也可以添加自定义告警规则。

查看和管理内置规则

在健康度列表页面,单击页面右上角的巡检配置。
在巡检规则配置面板,查看内置规则列表。
规则列表包含以下信息:
- 巡检类型: 规则所属类别,包括错误、异动、水位。
- 规则名称: 规则的名称。
- 规则描述: 规则检测的内容说明。
- 启用状态: 开关控制,开启后该规则生效。
根据需要启用或禁用规则。
单击规则右侧的开关,可切换规则的启用状态:
- 开启: 规则生效,系统会自动创建对应的告警规则并开始检测。
- 关闭: 规则停用,不再检测该项内容。

说明:

开启规则后,系统会在告警中心自动创建对应的告警规则。这些告警规则默认不会发送通知,仅用于生成健康事件。如需接收告警通知,可在告警中心为其配置通知策略。
完整的规则列表及说明,请参见健康度内置规则。

添加自定义告警

除了内置规则,您还可以将已有的自定义告警规则加入健康度巡检体系。

在巡检配置面板,单击添加自定义告警。
在弹出的对话框中,选择需要加入健康度巡检的告警规则,然后单击确定。
添加成功后,该告警规则产生的告警事件将纳入健康度评估。

说明:

自定义告警规则需要先在云监控 2.0 告警中心创建。
告警规则的启停状态保持同步。在告警中心停用规则后,该规则也不再参与健康度评估。
您可以随时移除已添加的自定义告警规则。

配置建议

初次使用建议保持所有内置规则默认启用,观察一段时间后再根据实际情况调整。
如果某类问题在您的业务场景中不适用(例如非 Java 应用无需关注 JVM 规则),可以关闭对应规则。
对于业务特定的检测需求,建议通过添加自定义告警的方式纳入健康度评估。

配置健康度阈值

阈值设置功能允许您自定义健康状态的判定标准。系统默认使用事件等级阈值进行判定,高级用户可以开启风险指数功能进行更精细化的评估。

查看和修改事件等级阈值

事件等级阈值是最直观的健康状态判定方式,根据实体关联的健康事件的严重等级来决定健康状态。

在健康度列表页面,单击页面右上角的阈值设置。
在阈值配置对话框,查看当前的事件等级映射配置。
默认配置如下:
- 正常: 无事件。
- 警告: 包含 P3(警告)或 P4(普通)级别事件。
- 严重: 包含 P1(紧急)或 P2(错误)级别事件。
(可选)根据业务需求调整映射关系。
例如,您可以将 P2 从严重状态移到警告状态。在对应的健康状态下拉框中选择需要包含的事件等级,然后单击确认。

配置风险指数阈值

风险指数是系统综合评估实体健康程度的量化指标,适合对健康度评估有更精细化需求的高级用户。

在阈值配置对话框,开启风险指数开关。
开启后,页面显示风险指数配置区域。
查看或修改风险指数阈值。
默认风险指数范围如下:
- 正常: 0 ~ 10
- 警告: 10 ~ 40
- 严重: 40 ~ +∞
风险指数的计算综合考虑了健康事件的数量、事件的严重等级和事件的持续状态。
单击确认,保存配置。

说明: 如需恢复默认配置,单击恢复默认设置。

查看健康度详情

在健康度列表中单击目标应用后,进入该应用的健康度详情页面。详情页面包含时间线和影响面两个标签页。

查看时间线

时间线标签页展示应用的健康事件历史记录和趋势分析。

界面说明

时间线页面包含以下内容:

事件分布饼图: 显示当前时间范围内,不同种类事件(Error、Anomaly、Saturation、Change、Failure)的分布比例。
事件趋势图: 以时间序列的方式展示健康事件数量的变化趋势,帮助您:
- 了解问题是持续存在还是间歇发生。
- 判断问题是在恶化还是缓解。
- 定位问题开始的时间点。
事件时间线明细: 按严重等级分组展示所有健康事件。每个事件显示事件名称(触发的规则名称和涉及的接口/实例)和时间条(事件发生和持续的时间段可视化)。

操作说明

切换时间范围: 在页面右上角选择需要查看的时间范围(如最近 5 分钟、最近 1 小时等)。
过滤事件: 在搜索框中输入事件名称或实体名称,筛选显示的事件。
展开/收起分组: 单击严重等级前的箭头图标,可展开或收起该分组下的事件列表。
查看事件详情: 单击具体的事件条目,可查看事件触发的具体时间、相关的指标数值、涉及的接口或实例信息等。
跳转实体详情: 在事件详情中,单击相关实体(如接口、实例)链接,可跳转到对应实体的详情页面进行更深入的分析。

说明: 当应用处于正常状态,没有健康事件触发时,页面显示"暂无数据"。

查看影响面

影响面标签页以拓扑图的形式展示应用的上下游依赖关系和影响范围。

在健康度详情页面,单击影响面标签页。
查看依赖关系拓扑图。
拓扑图包含以下内容:
- 当前实体: 位于中心位置,显示当前查看的应用。
- 上游依赖: 调用当前应用的服务或组件。
- 下游依赖: 当前应用调用的服务或组件。
- 健康状态: 每个节点通过颜色显示其健康状态。

使用场景

故障根因分析: 当某个服务出现问题时,通过影响面查看其依赖的下游服务是否也存在问题,帮助定位根因。
影响范围评估: 了解问题服务被哪些上游服务依赖,评估故障可能影响的业务范围。
依赖关系梳理: 直观了解服务间的调用关系,辅助架构分析。

常见问题

为什么某个应用显示为红色,但我没有收到告警?

健康度巡检规则生成的告警默认不发送通知,仅用于健康度评估和界面展示。如果您需要接收告警通知,可以在云监控 2.0 告警中心找到对应的健康度告警规则,为其配置通知策略。

健康度检测的频率是多少?

系统每分钟执行一次健康规则检测,使用过去 5 分钟的数据进行评估。

事件等级阈值和风险指数有什么区别?

事件等级阈值(默认): 根据事件的严重等级直接判定健康状态,简单直观,适合大多数用户。
风险指数(高级): 综合考虑事件数量、等级和持续状态计算量化分数,适合需要更精细化评估的高级用户。

如何将已有的告警规则加入健康度巡检?

在巡检配置页面,单击添加自定义告警按钮,选择需要加入的告警规则即可。添加后,该告警规则产生的事件将纳入健康度评估。