配置监控告警
向量检索服务Milvus版(简称Milvus)提供了告警设置功能,通过对重要的监控指标设置报警规则,可以实时了解实例的运行状况,及时处理潜在风险,保障实例稳定运行。
背景信息
Milvus的监控报警是通过阿里云云监控产品实现的。通过云监控,您可以设置监控项,在触发监控项报警规则时,通知报警联系组中的所有联系人。您也可以维护报警监控项对应的报警联系人组,以便发生报警时,能及时通知到相关联系人。更多信息,请参见什么是云监控。
前提条件
已创建Milvus实例,详情请参见快速创建Milvus实例。
开启一键告警
进入Milvus页面。
登录阿里云Milvus控制台。
在左侧导航栏,单击Milvus实例。
在顶部菜单栏处,根据实际情况选择地域。
在Milvus实例页面,单击实例名称。
单击监控告警页签。
单击告警设置。
在告警设置页面,打开一键告警开关。
默认规则如下表所示。
规则名称
监控项
指标采样周期
报警规则
SystemDefault_acs_milvus_ProcessResidentMemoryUtilization
内存使用率
60秒
连续5个周期平均值 >= 80%,则发出告警。
SystemDefault_acs_milvus_ProcessCPUUtilization
CPU使用率
60秒
连续5个周期平均值 >= 90%,则发出告警。
创建报警规则
在监控告警的告警设置页签,单击报警规则设置。
在报警规则页面,单击创建报警规则。
在创建报警规则面板,产品选择向量检索服务Milvus版,资源范围选择全部资源,设置相应的参数,单击确认。
以创建向量检索服务Milvus版的报警规则,详情请参见创建报警规则。
以下为支持的监控指标及其详细说明。您可以根据业务需求选择合适的监控项,并配置相应的报警规则。
中文名称
指标名称
指标含义
节点Alive状态
ProcessAliveStatus
节点存活状态(正常为1,异常为0)。
CPU使用率
SystemDefault_acs_milvus_ProcessCPUUtilization
旧指标,对于非1:4的CU规格不适用,建议使用新指标ProcessCPUUtilizationV2 。
CPU使用率(新)
ProcessCPUUtilizationV2
Pod容器的CPU使用率。
内存使用率
SystemDefault_acs_milvus_ProcessResidentMemoryUtilization
旧指标,对于非1:4的CU规格不适用,建议使用新指标ProcessResidentMemoryUtilizationV2。
内存使用率(新)
ProcessResidentMemoryUtilizationV2
Pod容器的内存使用率。
查询QPS
QueryQPS
Query操作的速率(每秒请求数)。
检索QPS
SearchQPS
Search操作的速率(每秒请求数)。
插入QPS
InsertQPS
插入操作的速率(每秒请求数)。
插入或更新QPS
UpsertQPS
插入或更新操作的速率(每秒请求数)。
批量插入QPS
BulkInsertQPS
批量插入操作的速率(每秒请求数)。
删除QPS
DeleteQPS
删除操作的速率(每秒请求数)。
向量搜索QPS
SearchVectorsQPS
向量搜索操作的速率(每秒请求数)。
向量导入QPS
InsertVectorsQPS
向量导入操作的速率(每秒请求数)。
向量插入或更新QPS
UpsertVectorsQPS
向量插入或更新操作的速率(每秒请求数)。
向量删除QPS
DeleteVectorsQPS
向量删除操作的速率(每秒请求数)。
限流失败请求QPS
RateLimitFailQPS
因限流被拒绝的请求速率(每秒请求数)。
每两分钟统计慢查询数量
milvus_slow_query
每两分钟内执行时间超过5秒的慢查询数量统计。
查询/检索失败率
milvus_search_query_failure_rate
查询/检索请求的失败率(百分比)。
插入/删除/更新操作失败率
milvus_mutation_failure_rate
插入/删除/更新操作的失败率(百分比)。
每两分钟查询/检索99分位延迟统计
milvus_search_query_latency
每两分钟内查询/检索操作的99分位延迟(单位:毫秒)。
每两分钟插入/删除/更新操作99分位延迟统计
milvus_mutation_latency
每两分钟内插入/删除/更新操作的99分位延迟(单位:毫秒)。
插入/删除/更新操作平均延迟
milvus_mutation_latency_average
插入/删除/更新操作的平均延迟(单位:毫秒)。
查询/检索更新操作平均延迟
milvus_search_query_latency_average
查询/检索操作的平均延迟(单位:毫秒)。
Flush次数
FlushCount
每分钟对集群执行的Flush操作次数。
存储大小
Storage
当前存储使用情况(单位:GiB)。
已加载实体数
milvus_rootcoord_loaded_entity_num
已加载的实体数量。
总集合数
milvus_rootcoord_collection_num
集群中总集合的数量。
总实体数
milvus_rootcoord_entity_num
集群中实体的总数。
管理报警规则
在告警设置页面,单击报警规则设置,跳转到云监控的报警规则页面,您可以对当前的报警规则执行修改、删除和禁用等操作,详情请参见管理报警规则。