向量引擎告警

更新时间:
复制为 MD 格式

云原生多模数据库 Lindorm向量引擎提供面向海量向量数据的存储、索引和检索服务,支持多种索引算法和距离函数,并支持丰富的融合检索方式。为确保用户服务稳定性,及时发现服务潜在的风险, Lindorm 内部提供了丰富的监控项和自定义报警规则,可根据实际需求,合理配置报警规则,以便在资源不足或业务受损时及时采取措施,确保业务可靠性和可用性。

向量引擎监控指标

业务监控指标

Lindorm向量引擎业务GetDistance平均延迟

该指标反映业务融合检索请求时计算向量距离的延迟情况,通常当延迟 > 500ms 时可以配置告警,评估是否 CPU 打满导致。

Lindorm向量引擎业务KnnSearch平均延迟

该指标反映业务KNN请求的延迟情况,通常当延迟 > 1000ms 时可以配置告警,评估是否CPU打满导致。

Lindorm向量引擎业务Put平均延迟

该指标反映业务数据写入的延迟情况,通常当延迟 > 500ms时可以配置告警,评估是否CPU打满导致。

系统监控指标

Lindorm向量引擎内存使用率

该模块用于监控向量引擎的内存使用比例,确保服务稳定运行。向量索引数据占用大量内存空间,并需要适量空间进行异步回收,因此内存水位正常至关重要。

当内存使用比例超过80%时,可能影响在线业务的响应时间。建议以此配置告警阈值,并及时清理非必要向量索引数据或进行节点变配。

Lindorm向量引擎CPU使用率

该模块用于监控向量引擎的CPU使用率和负载,包含指标:CPU使用率(User)和CPU使用率(System)。向量检索服务高度消耗CPU资源,每次请求涉及数十万次浮点运算,对算力需求极高。CPU利用率上升通常导致响应时间增加;当超过90%时需重点关注。建议基于以下情况进行排查:

  1. 排查是否业务请求 TPS 有所增加,评估是否需要扩容。

  2. 排查是否有索引构建任务,索引构建采用并发批量方式,非常消耗集群的 CPU 资源,等待索引构建完毕即可。

    GET /_plugins/_vector/index/tasks
    {
      "indexName": $your_index,
      "fieldName": $vector_column,
      "taskIds": "[]"
    }
    
    # 若返回有所有构建任务,且任务状态是 TRAIN、BUILDING,说明有索引构建任务
  3. 排查是否集群刚经过重启,索引在加载中,加载索引同样是非常消耗 CPU 资源,等待索引加载完毕即可。

向量引擎监控告警配置

创建向量引擎告警规则

  1. 登录Lindorm管理控制台。在左上角选择实例所属的地域。在实例列表页,单击目标实例ID或者目标实例所在行操作列的管理

  2. 在左侧导航栏单击报警配置可以查看实例的告警规则。报警规则

  3. 单击创建Lindorm告警规则

  4. 创建Lindorm告警规则页面配置以下参数。

    参数

    说明

    告警名称

    告警的名称。

    检测类型

    选择静态阈值。

    Lindorm集群

    需要创建告警的Lindorm实例,即当前实例。

    告警分组

    选择Lindorm-向量告警

    告警指标

    有多个可选,主要可分为业务监控指标系统监控指标两类。

    image