云原生多模数据库 Lindorm搜索引擎提供全方位监控告警能力,实时追踪索引状态、查询延迟与资源水位,智能预警保障搜索服务稳定高效。
搜索引擎监控指标
Lindorm搜索引擎CPU总使用率
该指标由CPU user(进程占用)、CPU system(系统占用)和CPU wio(I/O等待)三部分总和组成。当总使用率长时间超过90%时,下发到搜索引擎的读写请求易排队,导致响应时间(RT)增加且吞吐量受限;CPU瓶颈下,即使增加客户端并发,服务端性能也无法提升。
CPU升高通常源于读写请求量增加或大查询(表现为CPU user大幅上涨),或在I/O密集型场景如分词查询(CPU wio显著上升)。建议可结合监控排查以下情况:
业务读写请求量是否有上涨,主要关注节点维度服务侧指标中的写入TPS和查询QPS。
业务查询模式是否有变化,进而导致下发了大查询,主要关注节点维度服务侧指标中的 Query阶段延迟和Fetch阶段延迟。
对于延迟不敏感场景,优先监控search线程rejected和write线程rejected详情。这两个监控指标直接反映请求队列满导致的拒绝,对于客户端而言则反映为读写请求的失败。建议告警应聚焦长时间非零状态而非短暂峰值。
Lindorm搜索引擎内存反压
Lindorm搜索引擎服务端在执行请求前,会基于当前JVM内存使用情况和请求大小评估内存是否足够。如果剩余内存不足,且执行Full GC也无法释放足够空间,请求将被拒绝。节点维度服务侧指标-整体内存反压次数监控大盘直接反映这种拒绝的频率。类似读写线程拒绝的情况,如果客户端突发流量减少或大查询停止,系统通过垃圾回收逐步恢复JVM内存水位,反压频率会下降直至归零。因此,告警建议是监测该指标是否长时间保持在非零状态。
业务读写查询延迟
该指标位于节点维度业务侧指标 search延迟/bulk写入延迟,直接反映客户端调用search/bulk API 查询/写入Lindorm搜索引擎时的请求响应RT情况(包括mean和p99)。对于查询/写入延迟敏感的业务场景,可以通过如下告警模板配置业务侧通过search/bulk接口查询/写入服务端的mean或p99延迟告警。
创建搜索引擎告警规则
登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理。
在左侧导航栏单击报警配置可以查看实例的告警规则。

单击创建Lindorm告警规则。
在创建Lindorm告警规则页面配置以下参数。
参数
说明
告警名称
告警的名称。
检测类型
选择静态阈值。
Lindorm集群
需要创建告警的Lindorm实例,即当前实例。
告警分组
选择
Lindorm-搜索引擎3.0。告警指标
有多个可选,包含等Lindorm搜索引擎CPU总使用率、Lindorm搜索引擎内存反压、业务读写查询延迟等。
