云原生多模数据库 Lindorm向量引擎提供面向海量向量数据的存储、索引和检索服务,支持多种索引算法和距离函数,并支持丰富的融合检索方式。为确保用户服务稳定性,及时发现服务潜在的风险, Lindorm 内部提供了丰富的监控项和自定义报警规则,可根据实际需求,合理配置报警规则,以便在资源不足或业务受损时及时采取措施,确保业务可靠性和可用性。
向量引擎监控指标
业务监控指标
Lindorm向量引擎业务GetDistance平均延迟
该指标反映业务融合检索请求时计算向量距离的延迟情况,通常当延迟 > 500ms 时可以配置告警,评估是否 CPU 打满导致。
Lindorm向量引擎业务KnnSearch平均延迟
该指标反映业务KNN请求的延迟情况,通常当延迟 > 1000ms 时可以配置告警,评估是否CPU打满导致。
Lindorm向量引擎业务Put平均延迟
该指标反映业务数据写入的延迟情况,通常当延迟 > 500ms时可以配置告警,评估是否CPU打满导致。
系统监控指标
Lindorm向量引擎内存使用率
该模块用于监控向量引擎的内存使用比例,确保服务稳定运行。向量索引数据占用大量内存空间,并需要适量空间进行异步回收,因此内存水位正常至关重要。
当内存使用比例超过80%时,可能影响在线业务的响应时间。建议以此配置告警阈值,并及时清理非必要向量索引数据或进行节点变配。
Lindorm向量引擎CPU使用率
该模块用于监控向量引擎的CPU使用率和负载,包含指标:CPU使用率(User)和CPU使用率(System)。向量检索服务高度消耗CPU资源,每次请求涉及数十万次浮点运算,对算力需求极高。CPU利用率上升通常导致响应时间增加;当超过90%时需重点关注。建议基于以下情况进行排查:
排查是否业务请求 TPS 有所增加,评估是否需要扩容。
排查是否有索引构建任务,索引构建采用并发批量方式,非常消耗集群的 CPU 资源,等待索引构建完毕即可。
GET /_plugins/_vector/index/tasks { "indexName": $your_index, "fieldName": $vector_column, "taskIds": "[]" } # 若返回有所有构建任务,且任务状态是 TRAIN、BUILDING,说明有索引构建任务排查是否集群刚经过重启,索引在加载中,加载索引同样是非常消耗 CPU 资源,等待索引加载完毕即可。
向量引擎监控告警配置
创建向量引擎告警规则
登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理。
在左侧导航栏单击报警配置可以查看实例的告警规则。

单击创建Lindorm告警规则。
在创建Lindorm告警规则页面配置以下参数。
参数
说明
告警名称
告警的名称。
检测类型
选择静态阈值。
Lindorm集群
需要创建告警的Lindorm实例,即当前实例。
告警分组
选择
Lindorm-向量告警。告警指标
