高级监控报警服务能够为您提供丰富的Elasticsearch(简称ES)指标,其中基础指标不仅包含集群状态、节点及索引数量等资源使用指标和集群或节点的写入与读取QPS等并发性能指标,还包括资源使用情况和网络监控指标等,能够帮助您更好地掌握ES集群的使用情况。通过使用高级监控报警服务,您不仅可以查看集群基础指标大盘,还可以自定义相关报警规则,实时监控集群性能并发送报警通知。本文为您介绍默认基础指标大屏中各监控项中的指标含义。
阿里云ES实例的版本不同,支持的高级监控指标也不同。
仅内核增强版实例支持index写入和查询QPS相关高级监控指标,通过引擎指标可获取相关指标信息。
开启共享弹性存储功能的6.7版本实例不支持磁盘使用率相关指标。具体支持的指标请以控制台为准。
类别 | 指标 | 含义 |
cluster | aliyunes.elasticsearch.index.summary.total.indexing.index_total_qps | 集群总体写入QPS。展示了集群每秒写入文档的数量,具体说明如下:
|
aliyunes.elasticsearch.index.summary.total.search.query_total_qps | 集群总体查询QPS。展示了集群每秒执行的查询QPS数量,查询QPS数量与待查询索引的主分片个数有关。例如,待查询索引有5个主分片,则一次查询请求对应5个QPS。 | |
aliyunes.elasticsearch.cluster.stats.status | 集群状态,支持以下三种状态:
| |
aliyunes.elasticsearch.cluster.stats.indices.shards.count | shard数目。 | |
aliyunes.elasticsearch.cluster.stats.indices.total | index数目。 | |
aliyunes.elasticsearch.cluster.stats.nodes.count | 节点数目。 | |
aliyunes.elasticsearch.aliyun_auto_snapshot.latest_duration.ms | 最新快照持续时长,单位:ms。 | |
aliyunes.elasticsearch.cluster.stats.indices.fielddata.memory.bytes | fielddata内存使用情况,单位:Byte。 | |
aliyunes.elasticsearch.cluster.stats.indices.shards.primaries | 主shard数目。 | |
index | aliyunes.elasticsearch.index.segments.memory.bytes | index segments内存使用情况,单位:Byte。 |
aliyunes.elasticsearch.index.store.size.bytes | 索引存储大小,单位:Byte。 | |
aliyunes.elasticsearch.index.segments.stored_fields_memory.bytes | segments stored fields的内存大小,单位:Byte。 | |
aliyunes.elasticsearch.index.segments.count | index segments数目。 | |
Node Resource | aliyunes.ecs.node_stats_process_cpu_percent_raw | 节点的CPU平均使用率。 |
aliyunes.ecs.node_stats_os_cpu_load_average_1m_raw | 节点每分钟负载。 | |
aliyunes.ecs.node_stats_os_per_cpu_load_average_1m_raw | 节点单CPU每分钟负载。 | |
aliyunes.elasticsearch.node.stats.jvm.mem.heap_used_percent | JVM堆内存使用率。 | |
aliyunes.ecs.node_stats_system_disk_space_usage | 系统磁盘使用率。 | |
aliyunes.ecs.node_stats_fs_data_disk_total_usage | 节点磁盘使用率。 | |
Node Network | aliyunes.ecs.node_stats_networkin_packages | 节点网络流入包。 |
aliyunes.ecs.node_stats_networkout_packages | 节点网络流出包。 | |
aliyunes.ecs.node_stats_networkin_rate | 节点网络流入率。 | |
aliyunes.ecs.node_stats_networkout_rate | 节点网络流出率。 | |
aliyunes.ecs.node_stats_tcp_established | 节点TCP链接数。 | |
Node Disk | aliyunes.ecs.node_stats_data_disk_r | 每秒完成的读请求数量。 |
aliyunes.ecs.node_stats_data_disk_rm | 每秒钟读取的大小,单位:MB。 | |
aliyunes.ecs.node_stats_data_disk_w | 每秒完成的写请求数量。 | |
aliyunes.ecs.node_stats_data_disk_wm | 每秒钟写入的大小,单位:MB。 | |
aliyunes.ecs.node_stats_data_disk_r_await | 平均每次读请求的等待时间,单位:ms。 | |
aliyunes.ecs.node_stats_data_disk_w_await | 平均每次写请求的等待时间,单位:ms。 | |
aliyunes.ecs.node_stats_data_disk_svctm | 平均每次请求的服务时间,单位:ms。 | |
aliyunes.ecs.node_stats_data_disk_util | 设备的利用率。 | |
aliyunes.ecs.node_stats_data_disk_avgqu_sz | 平均请求队列的长度。 | |
Node JVM | aliyunes.elasticsearch.node.stats.jvm.mem.heap_used_percent | heap使用率。 |
aliyunes.elasticsearch.node.stats.jvm.mem.pools.old.used.bytes | old区使用情况,单位:Byte。 | |
aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.ms | old GC耗时,单位:ms。 | |
aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.ms | young GC耗时,单位:ms。 | |
aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.count | old GC频次。 | |
aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.count | young GC频次。 | |
aliyunes.elasticsearch.node.stats.jvm.mem.pools.survivor.used.bytes | survivor空间当前使用的内存量,单位:Byte。 | |
aliyunes.elasticsearch.node.stats.jvm.mem.pools.survivor.max.bytes | survivor空间使用的最大内存量,单位:Byte。 | |
aliyunes.elasticsearch.node.stats.jvm.mem.pools.old.peak.bytes | JVM老年代空间使用的最大内存,单位:Byte。 | |
aliyunes.elasticsearch.node.jvm.memory.nonheap.init.bytes | JVM初始化堆外内存,单位:Byte。 | |
aliyunes.elasticsearch.node.jvm.memory.nonheap.max.bytes | 堆外内存最大使用量,单位:Byte。 | |
Thread_pool | aliyunes.elasticsearch.node.stats.thread_pool.search.threads | 线程池中的线程总数。 |
aliyunes.elasticsearch.node.stats.thread_pool.search.rejected | 查询线程池中被拒绝的请求数。 | |
aliyunes.elasticsearch.node.stats.thread_pool.search.queue | 查询线程池中排队的请求数。 | |
aliyunes.elasticsearch.node.stats.thread_pool.generic.queue | 通用线程池中排队的请求数。 | |
aliyunes.elasticsearch.node.stats.thread_pool.generic.threads | 通用池中的线程总数。 | |
aliyunes.elasticsearch.node.stats.thread_pool.generic.rejected | 通用线程池中被拒绝的请求数。 |
部分指标开启了rate能力,代表某一段时间的增长速率。监控存在一定的误差,不是完全的精确,主要用于判断变化情况,如果数据变化缓慢基本会被平均掉。
例如,old gc次数指标aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.count是基于监控上两点间采集count值,如果监控每1分钟显示一个点,在一分钟的开始采集一次数据(gc累计是1000),在一分钟的结尾采集一次数据(gc累计是1001次),则rate计算的是增长率(1001-1000)/60。
目前开启rate能力的指标包括:
"metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.ms"
"metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.old.collection.count"
"metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.count"
"metric": "aliyunes.elasticsearch.node.stats.jvm.gc.collectors.young.collection.ms"
"metric": "aliyunes.elasticsearch.node.stats.thread_pool.search.rejected"
"metric": "aliyunes.elasticsearch.node.stats.thread_pool.write.rejected"
"metric": "aliyunes.elasticsearch.node.stats.thread_pool.generic.rejected"