本文档介绍云监控 2.0 健康度功能预置的巡检规则。这些规则覆盖常见的健康问题检测场景,开箱即用。
概述
严重等级定义
内置规则的严重等级与告警严重等级保持一致:
等级 | 名称 | 含义 |
P1 | 紧急 (Critical) | 紧急问题,需立即处理 |
P2 | 错误 (Error) | 错误问题,需尽快处理 |
P3 | 警告 (Warning) | 警告信息,需关注 |
P4 | 普通 (Info) | 提示信息,供参考 |
规则类型定义
中文 | 英文 | 说明 |
错误 | Error | 已发生的错误事件 |
异动 | Anomaly | 基于历史的异常波动 |
水位 | Saturation | 资源接近容量限制 |
变更 | Amend | 环境和代码变化 |
故障 | Failure | 严重或完全降级 |
告警 | Custom Alert | 用户自定义告警 |
APM 域
APM(应用性能监控)域的内置规则适用于通过 ARMS 探针或通过开源探针接入的应用服务。
支持的实体类型
实体类型 | 说明 |
应用服务 (apm.service) | 微服务应用整体 |
接口 (apm.operation) | 服务对外暴露的 API 接口 |
实例 (apm.instance) | 服务运行的具体实例 |
APM 域规则汇总
错误 & 异动类规则(7 条)
告警规则名称 | 规则类型 | 规则名称 | 检测逻辑 | 默认阈值 | 等级 |
[Health Rule] error_ratio_threshold_critical | 错误 | 错误率超阈值 | 错误率 > 阈值 且 QPS > 0.1 | 10% | P1 |
[Health Rule] error_ratio_compare | 异动 | 错误率环比异常 | 错误率日环比 > 阈值 且 QPS > 0.1 | 100% | P1 |
[Health Rule] latency_avg_threshold_critical | 错误 | 平均耗时超阈值 | 平均耗时 > 阈值 且 QPS > 0.1 | 3 秒 | P1 |
[Health Rule] latency_avg_compare | 异动 | 平均耗时环比异常 | 平均耗时日环比 > 阈值 且 QPS > 0.1 | 50% | P1 |
[Health Rule] request_rate_compare | 异动 | 请求量环比异常 | 请求量日环比变化 > 阈值 | 50% | P1 |
[Health Rule] http_5xx_threshold_and_compare_critical | 错误 | HTTP 5xx 超阈值且环比上升 | 5xx > 阈值 且 日环比 > 50% | 100 次 | P1 |
[Health Rule] exception_count_threshold_and_compare_critical | 错误 | 异常次数超阈值 | 异常 > 阈值 且 日环比 > 50% | 100 次 | P1 |
水位类规则(5 条)
告警规则名称 | 规则类型 | 规则名称 | 检测逻辑 | 默认阈值 | 等级 |
[Health Rule] jvm_fullgc_count_threshold | 水位 | FullGC 次数超阈值 | FullGC > 阈值 | 3 次 | P1 |
[Health Rule] jvm_gc_total_duration | 水位 | GC 总耗时超阈值 | GC 总耗时 > 阈值 | 10 秒 | P1 |
[Health Rule] jvm_abnormal_thread_count_threshold_and_compare_critical | 水位 | JVM 异常线程数超阈值 | 异常线程 > 阈值 且 日环比 > 100% | 5 个 | P1 |
[Health Rule] cpu_usage_threshold_critical | 水位 | CPU 使用率超阈值 | CPU 使用率 > 阈值 | 70% | P1 |
[Health Rule] memory_usage_threshold_critical | 水位 | 内存使用率超阈值 | 内存使用率 > 阈值 | 85% | P1 |
错误 & 异动类规则详情
错误 & 异动类规则主要检测服务处理请求时的健康状况,适用于 APM 应用和 XTrace 应用。
错误率超阈值
属性 | 值 |
规则 ID |
|
规则名称 | 错误率超阈值 |
规则描述 | 持续监控应用错误率,检测服务可用性 |
适用实体 | 接口 (apm.operation) |
严重等级 | P1 (Critical) |
检测逻辑 | 错误率 > 阈值 且 QPS > 0.1 |
默认阈值 | 错误率:10% |
错误率环比异常
属性 | 值 |
规则 ID |
|
规则名称 | 错误率环比异常 |
规则描述 | 基于历史数据自动识别错误率异常波动,发现潜在故障风险 |
适用实体 | 接口 (apm.operation) |
严重等级 | P1 (Critical) |
检测逻辑 | 错误率日环比 > 阈值 且 QPS > 0.1 |
默认阈值 | 环比增长:100%(即翻倍) |
平均耗时超阈值
属性 | 值 |
规则 ID |
|
规则名称 | 平均耗时超阈值 |
规则描述 | 持续监控应用平均响应耗时,保障用户体验 |
适用实体 | 接口 (apm.operation) |
严重等级 | P1 (Critical) |
检测逻辑 | 平均耗时 > 阈值 且 QPS > 0.1 |
默认阈值 | 平均耗时:3 秒 |
平均耗时环比异常
属性 | 值 |
规则 ID |
|
规则名称 | 平均耗时环比异常 |
规则描述 | 基于历史数据自动识别响应耗时异常波动,精准定位性能劣化 |
适用实体 | 接口 (apm.operation) |
严重等级 | P1 (Critical) |
检测逻辑 | 平均耗时日环比 > 阈值 且 QPS > 0.1 |
默认阈值 | 环比增长:50% |
请求量环比异常
属性 | 值 |
规则 ID |
|
规则名称 | 请求量环比异常 |
规则描述 | 基于历史数据自动识别流量异常波动,发现容量风险 |
适用实体 | 接口 (apm.operation) |
严重等级 | P1 (Critical) |
检测逻辑 | 请求量日环比变化 > 阈值(上升或下降) |
默认阈值 | 变化幅度:50% |
HTTP 5xx 超阈值且环比上升
属性 | 值 |
规则 ID |
|
规则名称 | HTTP 5xx 超阈值且环比上升 |
规则描述 | 检测 HTTP 5xx 服务端错误数量是否超阈值且呈上升趋势 |
适用实体 | 接口 (apm.operation) |
严重等级 | P1 (Critical) |
检测逻辑 | 5xx 错误数 > 阈值 且 日环比 > 50% |
默认阈值 | 5xx 错误数:100 次/5 分钟 |
异常次数超阈值
属性 | 值 |
规则 ID |
|
规则名称 | 异常次数超阈值 |
规则描述 | 检测应用产生异常次数是否超阈值且呈上升趋势 |
适用实体 | 接口 (apm.operation) |
严重等级 | P1 (Critical) |
检测逻辑 | 异常次数 > 阈值 且 日环比 > 50% |
默认阈值 | 异常次数:100 次/5 分钟 |
支持的应用类型 | 仅 APM 应用 |
水位类规则详情
水位类规则主要检测服务运行时的资源使用状况,帮助发现资源瓶颈和潜在风险。
FullGC 次数超阈值
属性 | 值 |
规则 ID |
|
规则名称 | FullGC 次数超阈值 |
规则描述 | 检测 JVM Full GC 频率是否异常,发现内存回收压力问题 |
适用实体 | 实例 (apm.instance) |
严重等级 | P1 (Critical) |
检测逻辑 | FullGC 次数 > 阈值 |
默认阈值 | 3 次/5 分钟 |
支持的应用类型 | 仅 APM Java 应用 |
GC 总耗时超阈值
属性 | 值 |
规则 ID |
|
规则名称 | GC 总耗时超阈值 |
规则描述 | 检测 GC 累计耗时是否过长,识别 GC 停顿影响性能的风险 |
适用实体 | 实例 (apm.instance) |
严重等级 | P1 (Critical) |
检测逻辑 | GC 总耗时 > 阈值 |
默认阈值 | 10 秒/5 分钟 |
支持的应用类型 | 仅 APM Java 应用 |
JVM 异常线程数超阈值
属性 | 值 |
规则 ID |
|
规则名称 | JVM 异常线程数超阈值 |
规则描述 | 检测 JVM 死锁或阻塞线程数是否异常,发现线程资源问题 |
适用实体 | 实例 (apm.instance) |
严重等级 | P1 (Critical) |
检测逻辑 | (死锁线程数 + 阻塞线程数) > 阈值 且 日环比 > 100% |
默认阈值 | 异常线程数:5 个 |
支持的应用类型 | 仅 APM Java 应用 |
CPU 使用率超阈值
属性 | 值 |
规则 ID |
|
规则名称 | CPU 使用率超阈值 |
规则描述 | 检测实例 CPU 使用率是否过高,预警计算资源瓶颈 |
适用实体 | 实例 (apm.instance) |
严重等级 | P1 (Critical) |
检测逻辑 | CPU 使用率 > 阈值 |
默认阈值 | 70% |
说明 | 需要应用上报系统指标 |
内存使用率超阈值
属性 | 值 |
规则 ID |
|
规则名称 | 内存使用率超阈值 |
规则描述 | 检测实例内存使用率是否过高,预警内存资源不足风险 |
适用实体 | 实例 (apm.instance) |
严重等级 | P1 (Critical) |
检测逻辑 | 内存使用率 > 阈值 |
默认阈值 | 85% |
说明 | 需要应用上报系统指标 |
检测参数说明
时间窗口
参数 | 值 | 说明 |
检测周期 | 1 分钟 | 每分钟执行一次规则检测 |
数据窗口 | 5 分钟 | 使用过去 5 分钟的数据进行评估 |
持续时间 | 1 分钟 | 条件需持续满足 1 分钟才触发事件 |
环比对比基准
环比类规则默认与昨天同时段的数据进行比较:
当前时间窗口:过去 5 分钟。
对比时间窗口:昨天同时段的 5 分钟。
QPS 过滤
请求类规则包含 QPS > 0.1 的过滤条件,用于排除低流量接口的误报。当接口请求量过低时,即使错误率较高也可能是偶发情况,不具备统计意义。