健康度内置规则

更新时间:
复制为 MD 格式

本文档介绍云监控 2.0 健康度功能预置的巡检规则。这些规则覆盖常见的健康问题检测场景,开箱即用。

概述

严重等级定义

内置规则的严重等级与告警严重等级保持一致:

等级

名称

含义

P1

紧急 (Critical)

紧急问题,需立即处理

P2

错误 (Error)

错误问题,需尽快处理

P3

警告 (Warning)

警告信息,需关注

P4

普通 (Info)

提示信息,供参考

规则类型定义

中文

英文

说明

错误

Error

已发生的错误事件

异动

Anomaly

基于历史的异常波动

水位

Saturation

资源接近容量限制

变更

Amend

环境和代码变化

故障

Failure

严重或完全降级

告警

Custom Alert

用户自定义告警

APM 域

APM(应用性能监控)域的内置规则适用于通过 ARMS 探针或通过开源探针接入的应用服务。

支持的实体类型

实体类型

说明

应用服务 (apm.service)

微服务应用整体

接口 (apm.operation)

服务对外暴露的 API 接口

实例 (apm.instance)

服务运行的具体实例

APM 域规则汇总

错误 & 异动类规则(7 条)

告警规则名称

规则类型

规则名称

检测逻辑

默认阈值

等级

[Health Rule] error_ratio_threshold_critical

错误

错误率超阈值

错误率 > 阈值 且 QPS > 0.1

10%

P1

[Health Rule] error_ratio_compare

异动

错误率环比异常

错误率日环比 > 阈值 且 QPS > 0.1

100%

P1

[Health Rule] latency_avg_threshold_critical

错误

平均耗时超阈值

平均耗时 > 阈值 且 QPS > 0.1

3 秒

P1

[Health Rule] latency_avg_compare

异动

平均耗时环比异常

平均耗时日环比 > 阈值 且 QPS > 0.1

50%

P1

[Health Rule] request_rate_compare

异动

请求量环比异常

请求量日环比变化 > 阈值

50%

P1

[Health Rule] http_5xx_threshold_and_compare_critical

错误

HTTP 5xx 超阈值且环比上升

5xx > 阈值 且 日环比 > 50%

100 次

P1

[Health Rule] exception_count_threshold_and_compare_critical

错误

异常次数超阈值

异常 > 阈值 且 日环比 > 50%

100 次

P1

水位类规则(5 条)

告警规则名称

规则类型

规则名称

检测逻辑

默认阈值

等级

[Health Rule] jvm_fullgc_count_threshold

水位

FullGC 次数超阈值

FullGC > 阈值

3 次

P1

[Health Rule] jvm_gc_total_duration

水位

GC 总耗时超阈值

GC 总耗时 > 阈值

10 秒

P1

[Health Rule] jvm_abnormal_thread_count_threshold_and_compare_critical

水位

JVM 异常线程数超阈值

异常线程 > 阈值 且 日环比 > 100%

5 个

P1

[Health Rule] cpu_usage_threshold_critical

水位

CPU 使用率超阈值

CPU 使用率 > 阈值

70%

P1

[Health Rule] memory_usage_threshold_critical

水位

内存使用率超阈值

内存使用率 > 阈值

85%

P1

错误 & 异动类规则详情

错误 & 异动类规则主要检测服务处理请求时的健康状况,适用于 APM 应用和 XTrace 应用。

错误率超阈值

属性

规则 ID

error_ratio_threshold_critical

规则名称

错误率超阈值

规则描述

持续监控应用错误率,检测服务可用性

适用实体

接口 (apm.operation)

严重等级

P1 (Critical)

检测逻辑

错误率 > 阈值 且 QPS > 0.1

默认阈值

错误率:10%

错误率环比异常

属性

规则 ID

error_ratio_compare

规则名称

错误率环比异常

规则描述

基于历史数据自动识别错误率异常波动,发现潜在故障风险

适用实体

接口 (apm.operation)

严重等级

P1 (Critical)

检测逻辑

错误率日环比 > 阈值 且 QPS > 0.1

默认阈值

环比增长:100%(即翻倍)

平均耗时超阈值

属性

规则 ID

latency_avg_threshold_critical

规则名称

平均耗时超阈值

规则描述

持续监控应用平均响应耗时,保障用户体验

适用实体

接口 (apm.operation)

严重等级

P1 (Critical)

检测逻辑

平均耗时 > 阈值 且 QPS > 0.1

默认阈值

平均耗时:3 秒

平均耗时环比异常

属性

规则 ID

latency_avg_compare

规则名称

平均耗时环比异常

规则描述

基于历史数据自动识别响应耗时异常波动,精准定位性能劣化

适用实体

接口 (apm.operation)

严重等级

P1 (Critical)

检测逻辑

平均耗时日环比 > 阈值 且 QPS > 0.1

默认阈值

环比增长:50%

请求量环比异常

属性

规则 ID

request_rate_compare

规则名称

请求量环比异常

规则描述

基于历史数据自动识别流量异常波动,发现容量风险

适用实体

接口 (apm.operation)

严重等级

P1 (Critical)

检测逻辑

请求量日环比变化 > 阈值(上升或下降)

默认阈值

变化幅度:50%

HTTP 5xx 超阈值且环比上升

属性

规则 ID

http_5xx_threshold_and_compare_critical

规则名称

HTTP 5xx 超阈值且环比上升

规则描述

检测 HTTP 5xx 服务端错误数量是否超阈值且呈上升趋势

适用实体

接口 (apm.operation)

严重等级

P1 (Critical)

检测逻辑

5xx 错误数 > 阈值 且 日环比 > 50%

默认阈值

5xx 错误数:100 次/5 分钟

异常次数超阈值

属性

规则 ID

exception_count_threshold_and_compare_critical

规则名称

异常次数超阈值

规则描述

检测应用产生异常次数是否超阈值且呈上升趋势

适用实体

接口 (apm.operation)

严重等级

P1 (Critical)

检测逻辑

异常次数 > 阈值 且 日环比 > 50%

默认阈值

异常次数:100 次/5 分钟

支持的应用类型

仅 APM 应用

水位类规则详情

水位类规则主要检测服务运行时的资源使用状况,帮助发现资源瓶颈和潜在风险。

FullGC 次数超阈值

属性

规则 ID

jvm_fullgc_count_threshold

规则名称

FullGC 次数超阈值

规则描述

检测 JVM Full GC 频率是否异常,发现内存回收压力问题

适用实体

实例 (apm.instance)

严重等级

P1 (Critical)

检测逻辑

FullGC 次数 > 阈值

默认阈值

3 次/5 分钟

支持的应用类型

仅 APM Java 应用

GC 总耗时超阈值

属性

规则 ID

jvm_gc_total_duration

规则名称

GC 总耗时超阈值

规则描述

检测 GC 累计耗时是否过长,识别 GC 停顿影响性能的风险

适用实体

实例 (apm.instance)

严重等级

P1 (Critical)

检测逻辑

GC 总耗时 > 阈值

默认阈值

10 秒/5 分钟

支持的应用类型

仅 APM Java 应用

JVM 异常线程数超阈值

属性

规则 ID

jvm_abnormal_thread_count_threshold_and_compare_critical

规则名称

JVM 异常线程数超阈值

规则描述

检测 JVM 死锁或阻塞线程数是否异常,发现线程资源问题

适用实体

实例 (apm.instance)

严重等级

P1 (Critical)

检测逻辑

(死锁线程数 + 阻塞线程数) > 阈值 且 日环比 > 100%

默认阈值

异常线程数:5 个

支持的应用类型

仅 APM Java 应用

CPU 使用率超阈值

属性

规则 ID

cpu_usage_threshold_critical

规则名称

CPU 使用率超阈值

规则描述

检测实例 CPU 使用率是否过高,预警计算资源瓶颈

适用实体

实例 (apm.instance)

严重等级

P1 (Critical)

检测逻辑

CPU 使用率 > 阈值

默认阈值

70%

说明

需要应用上报系统指标

内存使用率超阈值

属性

规则 ID

memory_usage_threshold_critical

规则名称

内存使用率超阈值

规则描述

检测实例内存使用率是否过高,预警内存资源不足风险

适用实体

实例 (apm.instance)

严重等级

P1 (Critical)

检测逻辑

内存使用率 > 阈值

默认阈值

85%

说明

需要应用上报系统指标

检测参数说明

时间窗口

参数

说明

检测周期

1 分钟

每分钟执行一次规则检测

数据窗口

5 分钟

使用过去 5 分钟的数据进行评估

持续时间

1 分钟

条件需持续满足 1 分钟才触发事件

环比对比基准

环比类规则默认与昨天同时段的数据进行比较:

  • 当前时间窗口:过去 5 分钟。

  • 对比时间窗口:昨天同时段的 5 分钟。

QPS 过滤

请求类规则包含 QPS > 0.1 的过滤条件,用于排除低流量接口的误报。当接口请求量过低时,即使错误率较高也可能是偶发情况,不具备统计意义。