配置监控告警

更新时间:

向量检索服务Milvus版(简称Milvus)提供了告警设置功能,通过对重要的监控指标设置报警规则,可以实时了解实例的运行状况,及时处理潜在风险,保障实例稳定运行。

背景信息

Milvus的监控报警是通过阿里云云监控产品实现的。通过云监控,您可以设置监控项,在触发监控项报警规则时,通知报警联系组中的所有联系人。您也可以维护报警监控项对应的报警联系人组,以便发生报警时,能及时通知到相关联系人。更多信息,请参见什么是云监控

前提条件

已创建Milvus实例,详情请参见快速创建Milvus实例

开启一键告警

  1. 进入Milvus页面。

    1. 登录阿里云Milvus控制台

    2. 在左侧导航栏,单击Milvus实例

    3. 在顶部菜单栏处,根据实际情况选择地域。

  2. Milvus实例页面,单击实例名称。

  3. 单击监控告警页签。

  4. 单击告警设置

  5. 告警设置页面,打开一键告警开关。

    默认规则如下表所示。

    规则名称

    监控项

    指标采样周期

    报警规则

    SystemDefault_acs_milvus_ProcessResidentMemoryUtilization

    内存使用率

    60

    连续5个周期平均值 >= 80%,则发出告警。

    SystemDefault_acs_milvus_ProcessCPUUtilization

    CPU使用率

    60

    连续5个周期平均值 >= 90%,则发出告警。

创建报警规则

  1. 监控告警告警设置页签,单击报警规则设置

  2. 报警规则页面,单击创建报警规则

  3. 创建报警规则面板,产品选择向量检索服务Milvus资源范围选择全部资源,设置相应的参数,单击确认

    以创建向量检索服务Milvus版的报警规则,详情请参见创建报警规则

    image

    以下为支持的监控指标及其详细说明。您可以根据业务需求选择合适的监控项,并配置相应的报警规则。

    中文名称

    指标名称

    指标含义

    节点Alive状态

    ProcessAliveStatus

    节点存活状态(正常为1,异常为0)。

    CPU使用率

    SystemDefault_acs_milvus_ProcessCPUUtilization

    旧指标,对于非1:4CU规格不适用,建议使用新指标ProcessCPUUtilizationV2 。

    CPU使用率(新)

    ProcessCPUUtilizationV2

    Pod容器的CPU使用率。

    内存使用率

    SystemDefault_acs_milvus_ProcessResidentMemoryUtilization

    旧指标,对于非1:4CU规格不适用,建议使用新指标ProcessResidentMemoryUtilizationV2。

    内存使用率(新)

    ProcessResidentMemoryUtilizationV2

    Pod容器的内存使用率。

    查询QPS

    QueryQPS

    Query操作的速率(每秒请求数)。

    检索QPS

    SearchQPS

    Search操作的速率(每秒请求数)。

    插入QPS

    InsertQPS

    插入操作的速率(每秒请求数)。

    插入或更新QPS

    UpsertQPS

    插入或更新操作的速率(每秒请求数)。

    批量插入QPS

    BulkInsertQPS

    批量插入操作的速率(每秒请求数)。

    删除QPS

    DeleteQPS

    删除操作的速率(每秒请求数)。

    向量搜索QPS

    SearchVectorsQPS

    向量搜索操作的速率(每秒请求数)。

    向量导入QPS

    InsertVectorsQPS

    向量导入操作的速率(每秒请求数)。

    向量插入或更新QPS

    UpsertVectorsQPS

    向量插入或更新操作的速率(每秒请求数)。

    向量删除QPS

    DeleteVectorsQPS

    向量删除操作的速率(每秒请求数)。

    限流失败请求QPS

    RateLimitFailQPS

    因限流被拒绝的请求速率(每秒请求数)。

    每两分钟统计慢查询数量

    milvus_slow_query

    每两分钟内执行时间超过5秒的慢查询数量统计。

    查询/检索失败率

    milvus_search_query_failure_rate

    查询/检索请求的失败率(百分比)。

    插入/删除/更新操作失败率

    milvus_mutation_failure_rate

    插入/删除/更新操作的失败率(百分比)。

    每两分钟查询/检索99分位延迟统计

    milvus_search_query_latency

    每两分钟内查询/检索操作的99分位延迟(单位:毫秒)。

    每两分钟插入/删除/更新操作99分位延迟统计

    milvus_mutation_latency

    每两分钟内插入/删除/更新操作的99分位延迟(单位:毫秒)。

    插入/删除/更新操作平均延迟

    milvus_mutation_latency_average

    插入/删除/更新操作的平均延迟(单位:毫秒)。

    查询/检索更新操作平均延迟

    milvus_search_query_latency_average

    查询/检索操作的平均延迟(单位:毫秒)。

    Flush次数

    FlushCount

    每分钟对集群执行的Flush操作次数。

    存储大小

    Storage

    当前存储使用情况(单位:GiB)。

    已加载实体数

    milvus_rootcoord_loaded_entity_num

    已加载的实体数量。

    总集合数

    milvus_rootcoord_collection_num

    集群中总集合的数量。

    总实体数

    milvus_rootcoord_entity_num

    集群中实体的总数。

管理报警规则

告警设置页面,单击报警规则设置,跳转到云监控的报警规则页面,您可以对当前的报警规则执行修改、删除和禁用等操作,详情请参见管理报警规则