核心监控指标告警配置-云原生多模数据库 Lindorm-阿里云-云原生多模数据库 Lindorm(Lindorm)-阿里云帮助中心

云原生多模数据库 Lindorm搜索引擎提供全方位监控告警能力，实时追踪索引状态、查询延迟与资源水位，智能预警保障搜索服务稳定高效。

搜索引擎监控指标

Lindorm搜索引擎CPU总使用率

该指标由CPU user（进程占用）、CPU system（系统占用）和CPU wio（I/O等待）三部分总和组成。当总使用率长时间超过90%时，下发到搜索引擎的读写请求易排队，导致响应时间（RT）增加且吞吐量受限；CPU瓶颈下，即使增加客户端并发，服务端性能也无法提升。

CPU升高通常源于读写请求量增加或大查询（表现为CPU user大幅上涨），或在I/O密集型场景如分词查询（CPU wio显著上升）。建议可结合监控排查以下情况：

业务读写请求量是否有上涨，主要关注节点维度服务侧指标中的写入TPS和查询QPS。
业务查询模式是否有变化，进而导致下发了大查询，主要关注节点维度服务侧指标中的 Query阶段延迟和Fetch阶段延迟。

对于延迟不敏感场景，优先监控search线程rejected和write线程rejected详情。这两个监控指标直接反映请求队列满导致的拒绝，对于客户端而言则反映为读写请求的失败。建议告警应聚焦长时间非零状态而非短暂峰值。

Lindorm搜索引擎内存反压

Lindorm搜索引擎服务端在执行请求前，会基于当前JVM内存使用情况和请求大小评估内存是否足够。如果剩余内存不足，且执行Full GC也无法释放足够空间，请求将被拒绝。节点维度服务侧指标-整体内存反压次数监控大盘直接反映这种拒绝的频率。类似读写线程拒绝的情况，如果客户端突发流量减少或大查询停止，系统通过垃圾回收逐步恢复JVM内存水位，反压频率会下降直至归零。因此，告警建议是监测该指标是否长时间保持在非零状态。

业务读写查询延迟

该指标位于节点维度业务侧指标 search延迟/bulk写入延迟，直接反映客户端调用search/bulk API 查询/写入Lindorm搜索引擎时的请求响应RT情况（包括mean和p99）。对于查询/写入延迟敏感的业务场景，可以通过如下告警模板配置业务侧通过search/bulk接口查询/写入服务端的mean或p99延迟告警。

创建搜索引擎告警规则

登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页，单击目标实例ID或者目标实例所在行操作列的管理。
在左侧导航栏单击报警配置，进入 Lindorm 告警列表 页面，可以查看实例的告警规则。
单击创建Lindorm告警规则。

在创建Lindorm告警规则页面配置以下参数。

参数	说明
告警名称	告警的名称。
检测类型	选择静态阈值。
Lindorm集群	需要创建告警的Lindorm实例，即当前实例。
告警分组	选择`Lindorm-搜索引擎3.0`。
告警指标	有多个可选，包含等Lindorm搜索引擎CPU总使用率、Lindorm搜索引擎内存反压、业务读写查询延迟等。

在告警条件中设置阈值，例如大于 0 时满足告警条件。

搜索引擎监控 指标

Lindorm搜索引擎CPU总使用率

Lindorm搜索引擎内存反压

业务读写查询延迟

创建搜索引擎告警规则

搜索引擎监控指标