健康度概述

更新时间:
复制为 MD 格式

本文档介绍云监控 2.0 实体健康度功能的核心概念和工作原理,帮助您快速了解并上手健康度功能。

什么是实体健康度

实体健康度是云监控 2.0 推出的主动式健康检测功能,帮助您快速掌握系统中每个实体(如应用、Pod、Node 等)的健康状态。

实体健康度通过持续监测的方式,主动发现潜在风险,让您能够:

  • 快速识别:通过直观的红黄绿状态指示,快速判断哪些实体需要关注。

  • 提前预警:在问题恶化前发现异常趋势,降低故障风险。

  • 开箱即用:内置检测规则覆盖常见健康问题,同时支持灵活的自定义配置(如添加自定义告警)。

  • 影响面分析:快速了解问题实体的上下游依赖关系和影响范围。

适用场景

场景

说明

日常检测

快速浏览所有实体状态,确认系统整体健康

故障定位

从健康度异常的实体入手,查看具体的健康事件

影响面评估

通过影响面功能了解问题的传播范围和上下游依赖

容量规划

识别资源使用率较高的实体,提前规划扩容

主要能力

1. 快速定位问题实体

当工作空间下有几十上百个应用时,逐一检查每个服务的指标既耗时又容易遗漏。健康度列表让您能够:

  • 在一个页面总览所有实体的健康状态。

  • 通过颜色区分 正常(绿色)、警告(黄色)、严重(红色) 状态。

  • 快速筛选出需要优先处理的问题实体。

2. 主动发现潜在风险

健康度巡检能够识别多种类型的潜在风险:

  • 性能劣化趋势:如响应时间比昨天同时段明显增加。

  • 异常流量模式:如请求量激增。

  • 资源压力预警:如 CPU、内存使用率接近阈值。

3. 影响面分析

当某个实体出现健康问题时,您可以通过影响面功能:

  • 查看该实体的上下游依赖关系。

  • 了解问题可能影响的范围。

  • 快速定位问题的根因和传播路径。

4. 灵活的自定义能力

健康度功能在提供开箱即用体验的同时,也支持根据业务需求进行自定义:

  • 扩展检测规则:除了内置规则,您还可以将已有的自定义告警规则纳入健康度巡检体系,让健康度评估更贴合您的业务场景。

  • 自定义评估标准:健康状态的判定阈值可以自定义,满足不同团队对实体健康的差异化定义。

健康状态判定

健康状态等级

实体健康度采用三种状态指示:

颜色

状态

含义

绿色

正常

各项指标正常,或未配置/未开启健康度规则

黄色

警告

存在需要关注的异常

红色

严重

存在紧急问题,可能影响业务

事件等级阈值(默认方式)

健康状态的判定默认基于事件等级阈值,系统根据实体关联的健康事件的严重等级来决定健康状态:

颜色

状态

默认配置

绿色

正常

无事件

黄色

警告

出现 P3(警告)或 P4(普通)事件

红色

严重

出现 P1(紧急)或 P2(错误)事件

您可以在阈值设置中自定义事件等级与健康状态的映射关系。

风险指数(高级功能)

对于有更精细化需求的高级用户,系统还提供风险指数作为可选的判定方式。风险指数是一个量化的风险值,综合考虑了:

  • 健康事件的数量。

  • 事件的严重等级(P1 紧急 / P2 错误 / P3 警告 / P4 普通)。

  • 事件的持续状态。

启用风险指数后,系统会根据风险指数与阈值的对比来决定健康状态。您可以在阈值设置中开启此功能并自定义风险指数阈值。

说明:风险指数功能默认关闭,适合对健康度评估有更精细化需求的高级用户使用。

工作原理概述

健康度功能采用事件驱动的方式:

持续巡检 → 发现异常 → 生成健康事件 → 状态判定 → 状态展示
  1. 持续巡检:系统根据健康规则,定期检测实体的各项指标。

  2. 发现异常:当指标超过阈值或出现异常变化时,识别为健康问题。

  3. 生成事件:每个发现的问题都会生成一条健康事件,记录详细上下文。

  4. 状态判定:根据事件等级阈值(或风险指数)判定健康状态。

  5. 状态展示:通过列表、时间线、影响面等方式直观呈现。

检测规则体系

健康度通过一套规则体系进行持续检测,规则来源包括:

内置规则

系统预置的检测规则,覆盖常见健康问题。您可以启用或禁用特定规则,也可以调整规则的阈值参数。以 APM 域应用健康度为例,内置规则包括:

检测类别

检测内容

错误 (Error)

错误率超阈值、平均耗时超阈值、HTTP 5xx 超阈值、异常次数超阈值等

异动 (Anomaly)

错误率环比异常、平均耗时环比异常、请求量环比异常等

水位 (Saturation)

FullGC 次数、GC 总耗时、CPU 使用率、内存使用率、JVM 异常线程数等

当您在巡检配置页面开启某个内置规则后,系统会自动创建对应的告警规则。您可以在云监控 2.0 告警中心 > 告警管理 > 告警规则中查看这些规则。这些告警规则默认不会发送通知,仅用于生成健康事件供健康度评估使用。如需接收通知,您可以在告警中心为其配置通知策略。

完整的规则列表请参阅健康度内置规则

自定义告警规则

除了内置规则,您还可以将在告警中心配置的自定义告警规则加入健康度巡检。

在巡检配置页面,您可以通过「添加自定义告警」功能,选择已有的告警规则加入健康度巡检体系。

开始使用

  1. 进入实体探索页面,切换到健康度视图。

  2. 查看应用服务的健康状态列表。

  3. 点击任意实体,进入详情页查看健康事件时间线和影响面。

  4. 健康度巡检配置中管理监测规则,添加自定义告警。

  5. 阈值设置中自定义健康状态的判定标准。

详细的操作指南请参阅健康度使用指南