本文档介绍云监控 2.0 实体健康度功能的核心概念和工作原理,帮助您快速了解并上手健康度功能。
什么是实体健康度
实体健康度是云监控 2.0 推出的主动式健康检测功能,帮助您快速掌握系统中每个实体(如应用、Pod、Node 等)的健康状态。
实体健康度通过持续监测的方式,主动发现潜在风险,让您能够:
快速识别:通过直观的红黄绿状态指示,快速判断哪些实体需要关注。
提前预警:在问题恶化前发现异常趋势,降低故障风险。
开箱即用:内置检测规则覆盖常见健康问题,同时支持灵活的自定义配置(如添加自定义告警)。
影响面分析:快速了解问题实体的上下游依赖关系和影响范围。
适用场景
场景 | 说明 |
日常检测 | 快速浏览所有实体状态,确认系统整体健康 |
故障定位 | 从健康度异常的实体入手,查看具体的健康事件 |
影响面评估 | 通过影响面功能了解问题的传播范围和上下游依赖 |
容量规划 | 识别资源使用率较高的实体,提前规划扩容 |
主要能力
1. 快速定位问题实体
当工作空间下有几十上百个应用时,逐一检查每个服务的指标既耗时又容易遗漏。健康度列表让您能够:
在一个页面总览所有实体的健康状态。
通过颜色区分 正常(绿色)、警告(黄色)、严重(红色) 状态。
快速筛选出需要优先处理的问题实体。
2. 主动发现潜在风险
健康度巡检能够识别多种类型的潜在风险:
性能劣化趋势:如响应时间比昨天同时段明显增加。
异常流量模式:如请求量激增。
资源压力预警:如 CPU、内存使用率接近阈值。
3. 影响面分析
当某个实体出现健康问题时,您可以通过影响面功能:
查看该实体的上下游依赖关系。
了解问题可能影响的范围。
快速定位问题的根因和传播路径。
4. 灵活的自定义能力
健康度功能在提供开箱即用体验的同时,也支持根据业务需求进行自定义:
扩展检测规则:除了内置规则,您还可以将已有的自定义告警规则纳入健康度巡检体系,让健康度评估更贴合您的业务场景。
自定义评估标准:健康状态的判定阈值可以自定义,满足不同团队对实体健康的差异化定义。
健康状态判定
健康状态等级
实体健康度采用三种状态指示:
颜色 | 状态 | 含义 |
绿色 | 正常 | 各项指标正常,或未配置/未开启健康度规则 |
黄色 | 警告 | 存在需要关注的异常 |
红色 | 严重 | 存在紧急问题,可能影响业务 |
事件等级阈值(默认方式)
健康状态的判定默认基于事件等级阈值,系统根据实体关联的健康事件的严重等级来决定健康状态:
颜色 | 状态 | 默认配置 |
绿色 | 正常 | 无事件 |
黄色 | 警告 | 出现 P3(警告)或 P4(普通)事件 |
红色 | 严重 | 出现 P1(紧急)或 P2(错误)事件 |
您可以在阈值设置中自定义事件等级与健康状态的映射关系。
风险指数(高级功能)
对于有更精细化需求的高级用户,系统还提供风险指数作为可选的判定方式。风险指数是一个量化的风险值,综合考虑了:
健康事件的数量。
事件的严重等级(P1 紧急 / P2 错误 / P3 警告 / P4 普通)。
事件的持续状态。
启用风险指数后,系统会根据风险指数与阈值的对比来决定健康状态。您可以在阈值设置中开启此功能并自定义风险指数阈值。
说明:风险指数功能默认关闭,适合对健康度评估有更精细化需求的高级用户使用。
工作原理概述
健康度功能采用事件驱动的方式:
持续巡检 → 发现异常 → 生成健康事件 → 状态判定 → 状态展示持续巡检:系统根据健康规则,定期检测实体的各项指标。
发现异常:当指标超过阈值或出现异常变化时,识别为健康问题。
生成事件:每个发现的问题都会生成一条健康事件,记录详细上下文。
状态判定:根据事件等级阈值(或风险指数)判定健康状态。
状态展示:通过列表、时间线、影响面等方式直观呈现。
检测规则体系
健康度通过一套规则体系进行持续检测,规则来源包括:
内置规则
系统预置的检测规则,覆盖常见健康问题。您可以启用或禁用特定规则,也可以调整规则的阈值参数。以 APM 域应用健康度为例,内置规则包括:
检测类别 | 检测内容 |
错误 (Error) | 错误率超阈值、平均耗时超阈值、HTTP 5xx 超阈值、异常次数超阈值等 |
异动 (Anomaly) | 错误率环比异常、平均耗时环比异常、请求量环比异常等 |
水位 (Saturation) | FullGC 次数、GC 总耗时、CPU 使用率、内存使用率、JVM 异常线程数等 |
当您在巡检配置页面开启某个内置规则后,系统会自动创建对应的告警规则。您可以在云监控 2.0 告警中心 > 告警管理 > 告警规则中查看这些规则。这些告警规则默认不会发送通知,仅用于生成健康事件供健康度评估使用。如需接收通知,您可以在告警中心为其配置通知策略。
完整的规则列表请参阅健康度内置规则。
自定义告警规则
除了内置规则,您还可以将在告警中心配置的自定义告警规则加入健康度巡检。
在巡检配置页面,您可以通过「添加自定义告警」功能,选择已有的告警规则加入健康度巡检体系。
开始使用
进入实体探索页面,切换到健康度视图。
查看应用服务的健康状态列表。
点击任意实体,进入详情页查看健康事件时间线和影响面。
在健康度巡检配置中管理监测规则,添加自定义告警。
在阈值设置中自定义健康状态的判定标准。
详细的操作指南请参阅健康度使用指南。