文档

基础指标

更新时间:

高级监控报警服务能够为您提供丰富的Elasticsearch(简称ES)指标,其中基础指标不仅包含集群状态、节点及索引数量等资源使用指标和集群或节点的写入与读取QPS等并发性能指标,还包括资源使用情况和网络监控指标等,能够帮助您更好地掌握ES集群的使用情况。通过使用高级监控报警服务,您不仅可以查看集群基础指标大盘,还可以自定义相关报警规则,实时监控集群性能并发送报警通知。本文为您介绍默认基础指标大屏中各监控项中的指标含义。

阿里云ES实例的版本不同,支持的高级监控指标也不同。

  • 仅内核增强版实例支持index写入和查询QPS相关高级监控指标,通过引擎指标可获取相关指标信息。

  • 开启共享弹性存储功能的6.7版本实例不支持磁盘使用率相关指标。具体支持的指标请以控制台为准。

表 1. 基础指标及含义
说明
  • cluster、index、Node JVM、Thread_pool维度涉及到的指标均由ES模块自身提供,具体请参见Elasticsearch Fields

  • 在监控集群级别的QPS相关指标时,可能因集群抖动出现不稳定的情况,推荐参考Kibana监控相关指标。高级监控和Kibana监控都会受集群稳定性影响,只是高级监控QPS指标因集群抖动出现的是监控突增、负值或无监控等状况,而Kibana更多的是出现无监控的状况。

类别

指标

含义

cluster

aliyunes.elasticsearch.index.summary.total.indexing.index_total_qps

集群总体写入QPS。展示了集群每秒写入文档的数量,具体说明如下:

  • 如果1秒内,客户端向集群发送了1个只包含单个文档的写入请求,则对应1个写入QPS。如果1秒内发送了多个写入请求,则累加统计。

  • 如果1秒内,通过_bulkAPI在一个写入请求中批量写入了多个文档,则写入QPS参考该请求中批量推送的总文档个数。如果1秒内发送了多个_bulkAPI批量写入请求,则累加统计。

aliyunes.elasticsearch.index.summary.total.search.query_total_qps

集群总体查询QPS。展示了集群每秒执行的查询QPS数量,查询QPS数量与待查询索引的主分片个数有关。例如,待查询索引有5个主分片,则一次查询请求对应5个QPS。

aliyunes.elasticsearch.cluster.stats.status

集群状态,支持以下三种状态:

  • 0:green

  • 1:yellow

  • 2:red

aliyunes.elasticsearch.cluster.stats.indices.shards.count

shard数目。

aliyunes.elasticsearch.cluster.stats.indices.total

index数目。

aliyunes.elasticsearch.cluster.stats.nodes.count

节点数目。

aliyunes.elasticsearch.aliyun_auto_snapshot.latest_duration.ms

最新快照持续时长,单位:ms。

aliyunes.elasticsearch.cluster.stats.indices.fielddata.memory.bytes

fielddata内存使用情况,单位:Byte。

aliyunes.elasticsearch.cluster.stats.indices.shards.primaries

主shard数目。

index

aliyunes.elasticsearch.index.segments.memory.bytes

index segments内存使用情况,单位:Byte。

aliyunes.elasticsearch.index.store.size.bytes

索引存储大小,单位:Byte。

aliyunes.elasticsearch.index.segments.stored_fields_memory.bytes

segments stored fields的内存大小,单位:Byte。

aliyunes.elasticsearch.index.segments.count

index segments数目。

Node Resource

aliyunes.ecs.node_stats_process_cpu_percent_raw

节点的CPU平均使用率。

aliyunes.ecs.node_stats_os_cpu_load_average_1m_raw

节点每分钟负载。

aliyunes.ecs.node_stats_os_per_cpu_load_average_1m_raw

节点单CPU每分钟负载。

aliyunes.elasticsearch.node.stats.jvm.mem.heap_used_percent

JVM堆内存使用率。

aliyunes.ecs.node_stats_system_disk_space_usage

系统磁盘使用率。

aliyunes.ecs.node_stats_fs_data_disk_total_usage

节点磁盘使用率。

Node Network

aliyunes.ecs.node_stats_networkin_packages

节点网络流入包。

aliyunes.ecs.node_stats_networkout_packages

节点网络流出包。

aliyunes.ecs.node_stats_networkin_rate

节点网络流入率。

aliyunes.ecs.node_stats_networkout_rate

节点网络流出率。

aliyunes.ecs.node_stats_tcp_established

节点TCP链接数。

Node Disk

aliyunes.ecs.node_stats_data_disk_r

每秒完成的读请求数量。

aliyunes.ecs.node_stats_data_disk_rm

每秒钟读取的大小,单位:MB。

aliyunes.ecs.node_stats_data_disk_w

每秒完成的写请求数量。

aliyunes.ecs.node_stats_data_disk_wm

每秒钟写入的大小,单位:MB。

aliyunes.ecs.node_stats_data_disk_r_await

平均每次读请求的等待时间,单位:ms。

aliyunes.ecs.node_stats_data_disk_w_await

平均每次写请求的等待时间,单位:ms。

aliyunes.ecs.node_stats_data_disk_svctm

平均每次请求的服务时间,单位:ms。

aliyunes.ecs.node_stats_data_disk_util

设备的利用率。

aliyunes.ecs.node_stats_data_disk_avgqu_sz

平均请求队列的长度。

Node JVM

aliyunes.elasticsearch.node.stats.jvm.mem.heap_used_percent

heap使用率。

aliyunes.elasticsearch.node.stats.jvm.mem.pools.old.used.bytes

old区使用情况,单位:Byte。

aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.ms

old GC耗时,单位:ms。

aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.ms

young GC耗时,单位:ms。

aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.count

old GC频次。

aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.count

young GC频次。

aliyunes.elasticsearch.node.stats.jvm.mem.pools.survivor.used.bytes

survivor空间当前使用的内存量,单位:Byte。

aliyunes.elasticsearch.node.stats.jvm.mem.pools.survivor.max.bytes

survivor空间使用的最大内存量,单位:Byte。

aliyunes.elasticsearch.node.stats.jvm.mem.pools.old.peak.bytes

JVM老年代空间使用的最大内存,单位:Byte。

aliyunes.elasticsearch.node.jvm.memory.nonheap.init.bytes

JVM初始化堆外内存,单位:Byte。

aliyunes.elasticsearch.node.jvm.memory.nonheap.max.bytes

堆外内存最大使用量,单位:Byte。

Thread_pool

aliyunes.elasticsearch.node.stats.thread_pool.search.threads

线程池中的线程总数。

aliyunes.elasticsearch.node.stats.thread_pool.search.rejected

查询线程池中被拒绝的请求数。

aliyunes.elasticsearch.node.stats.thread_pool.search.queue

查询线程池中排队的请求数。

aliyunes.elasticsearch.node.stats.thread_pool.generic.queue

通用线程池中排队的请求数。

aliyunes.elasticsearch.node.stats.thread_pool.generic.threads

通用池中的线程总数。

aliyunes.elasticsearch.node.stats.thread_pool.generic.rejected

通用线程池中被拒绝的请求数。

部分指标开启了rate能力,代表某一段时间的增长速率。监控存在一定的误差,不是完全的精确,主要用于判断变化情况,如果数据变化缓慢基本会被平均掉。

例如,old gc次数指标aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.count是基于监控上两点间采集count值,如果监控每1分钟显示一个点,在一分钟的开始采集一次数据(gc累计是1000),在一分钟的结尾采集一次数据(gc累计是1001次),则rate计算的是增长率(1001-1000)/60。

目前开启rate能力的指标包括:

  • "metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.ms"

  • "metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.count"

  • "metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.count"

  • "metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.ms"

  • "metric": "aliyunes.elasticsearch.node.stats.thread_pool.search.rejected"

  • "metric": "aliyunes.elasticsearch.node.stats.thread_pool.write.rejected"

  • "metric": "aliyunes.elasticsearch.node.stats.thread_pool.generic.rejected"

  • 本页导读 (1)
文档反馈