向量引擎监控指标告警配置-云原生多模数据库Lindorm-阿里云-云原生多模数据库 Lindorm(Lindorm)-阿里云帮助中心

云原生多模数据库 Lindorm向量引擎提供面向海量向量数据的存储、索引和检索服务，支持多种索引算法和距离函数，并支持丰富的融合检索方式。为确保用户服务稳定性，及时发现服务潜在的风险， Lindorm 内部提供了丰富的监控项和自定义报警规则，可根据实际需求，合理配置报警规则，以便在资源不足或业务受损时及时采取措施，确保业务可靠性和可用性。

向量引擎监控指标

业务监控指标

Lindorm向量引擎业务GetDistance平均延迟

该指标反映业务融合检索请求时计算向量距离的延迟情况，通常当延迟 > 500ms 时可以配置告警，评估是否 CPU 打满导致。

Lindorm向量引擎业务KnnSearch平均延迟

该指标反映业务KNN请求的延迟情况，通常当延迟 > 1000ms 时可以配置告警，评估是否CPU打满导致。

Lindorm向量引擎业务Put平均延迟

该指标反映业务数据写入的延迟情况，通常当延迟 > 500ms时可以配置告警，评估是否CPU打满导致。

系统监控指标

Lindorm向量引擎内存使用率

该模块用于监控向量引擎的内存使用比例，确保服务稳定运行。向量索引数据占用大量内存空间，并需要适量空间进行异步回收，因此内存水位正常至关重要。

当内存使用比例超过80%时，可能影响在线业务的响应时间。建议以此配置告警阈值，并及时清理非必要向量索引数据或进行节点变配。

Lindorm向量引擎CPU使用率

该模块用于监控向量引擎的CPU使用率和负载，包含指标：CPU使用率（User）和CPU使用率（System）。向量检索服务高度消耗CPU资源，每次请求涉及数十万次浮点运算，对算力需求极高。CPU利用率上升通常导致响应时间增加；当超过90%时需重点关注。建议基于以下情况进行排查：

排查是否业务请求 TPS 有所增加，评估是否需要扩容。

排查是否有索引构建任务，索引构建采用并发批量方式，非常消耗集群的 CPU 资源，等待索引构建完毕即可。

GET /_plugins/_vector/index/tasks
{
  "indexName": $your_index,
  "fieldName": $vector_column,
  "taskIds": "[]"
}
# 若返回有所有构建任务，且任务状态是 TRAIN、BUILDING，说明有索引构建任务

排查是否集群刚经过重启，索引在加载中，加载索引同样是非常消耗 CPU 资源，等待索引加载完毕即可。

向量引擎监控告警配置

创建向量引擎告警规则

登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页，单击目标实例ID或者目标实例所在行操作列的管理。
在左侧导航栏单击报警配置可以查看实例的告警规则。进入 Lindorm 告警列表 页面，该页面展示已有告警规则及其运行状态。
单击创建Lindorm告警规则。

在创建Lindorm告警规则页面配置以下参数。

参数	说明
告警名称	告警的名称。
检测类型	选择静态阈值。
Lindorm集群	需要创建告警的Lindorm实例，即当前实例。
告警分组	选择`Lindorm-向量告警`。
告警指标	有多个可选，主要可分为业务监控指标和系统监控指标两类。

在告警指标下拉列表中勾选Lindorm向量引擎CPU使用率。其他可选指标包括向量引擎业务GetDistance平均延迟、KNNSEARCH平均TPS、KnnSearch平均延迟、Put平均TPS、Put平均延迟以及向量引擎内存使用率。告警条件设置为大于 80（%）时满足告警条件。