高级监控报警服务能够为您提供丰富的Elasticsearch指标,其中引擎指标是基于阿里云工程师丰富的运维经验,自主研发和采集的包括集群状态、查询、写入和缓存等方面的各项指标,能够帮助您排查Elasticsearch集群引擎性能及稳定性问题。使用高级监控报警服务,您不仅可以查看集群引擎指标大盘,还可以自定义相关报警规则,实时监控集群性能并发送报警通知。本文为您介绍阿里云Elasticsearch各引擎指标的含义。
使用限制
阿里云Elasticsearch实例的版本不同,支持的高级监控指标也不同。
仅内核增强版实例支持index写入和查询QPS相关高级监控指标
开启共享弹性存储功能的6.7版本实例不支持磁盘使用率相关指标。具体支持的指标请以控制台为准。
概览
标签(表头)说明
指标:用于展示高级监控报警可供配置的各引擎指标。配置报警规则时需要填写指标,您可以复制此指标并粘贴到搜索框内,系统会自动为您匹配对应指标,详细信息请参见配置报警规则。
指标含义:控制台中显示的指标含义。
说明:指标的详细说明。
Tags:配置报警规则时,各监控项支持包含哪些属性标签。
说明不同的指标支持不同粒度的Tags。通过配置Tags,您可以进一步过滤指标数据。
以下Tags在通用Tags属性(instanceId、ip)的基础上,进行了更细粒度的划分。未提到的Tags不在Elasticsearch的监控范围内,例如hostname、kmon_tenant_name、kmon_service_name。
聚合算子:
指标聚合:所选Tags内的指标值采用的聚合方式。
采样聚合:对采样周期内的数据采用的聚合方式。
overview(概况)
指标 | 指标含义 | 说明 | Tags | 聚合算子 |
elasticsearch-server.search_total | 端到端查询QPS | 每秒端到端查询次数。 例如客户端每秒发送两个查询index的请求,则search_total为2。 |
|
|
elasticsearch-server.search_time_in_millis.max | 端到端查询延迟max | 端到端查询延迟时间。 |
|
|
elasticsearch-server.bulk_total_operations | bulk请求tps | shard维度,每秒bulk操作的次数。 |
|
|
elasticsearch-server.bulk_total_time_in_millis.max | bulk请求延迟max | shard维度,bulk操作总耗时。 |
|
|
elasticsearch-server.search_aggregation_total | 端到端agg查询QPS | 每秒端到端聚合查询的次数。 例如客户端每秒发送两个聚合查询请求,则aggregation_total为2。 |
|
|
search(查询)
指标 | 指标含义 | 说明 | Tags | 聚合算子 |
elasticsearch-server.search_total | 索引端到端查询QPS | 索引间每秒端到端查询次数。 例如客户端每秒发送两个查询index的请求,则search_total为2。 |
|
|
elasticsearch-server.search_time_in_millis.max | 索引端到端查询延迟_max | 索引间端到端查询延迟时间。 |
|
|
elasticsearch-server.search_aggregation_total | 索引端到端agg查询QPS | 索引间每秒端到端聚合查询的次数。 例如客户端每秒发送两个聚合查询请求,则aggregation_total为2。 |
|
|
elasticsearch-server.search_total | 协调节点查询QPS | 协调节点每秒查询次数。 例如客户端每秒发送两个查询index的请求,则通过协调节点search_total为2。 |
|
|
elasticsearch-server.search_time_in_millis.max | 协调节点查询延迟_max | 协调节点查询延迟时间。 |
|
|
elasticsearch-server.search_aggregation_total | 协调节点agg查询QPS | 协调节点每秒聚合查询的次数。 例如客户端每秒发送两个聚合查询请求,则通过协调节点aggregation_total为2。 |
|
|
elasticsearch-server.allocated_bytes.max | node聚合查询大对象分配速度_max | 聚合查询分配的内存大小。 |
|
|
elasticsearch-server.query_total | node维度query阶段QPS | node维度整合整个节点上所有shard每秒执行查询的次数,主要与每个shard的个数有关。 例如,每个shard上,您需要查询的索引有5个主shard,则每秒执行shard查询的次数为5。 |
|
|
elasticsearch-server.query_took_in_millis.max | node维度query阶段延迟max | nodes维度shard查询阶段的延迟。 |
|
|
elasticsearch-server.fetch_total | node维度fetch阶段QPS | node维度shard召回阶段每秒的查询次数。 |
|
|
elasticsearch-server.fetch_took_in_millis.max | node维度fetch阶段延迟max | node维度shard召回阶段总耗时。 |
|
|
elasticsearch-server.query_total | shard维度query阶段QPS | shard维度每秒执行shard查询的次数,主要与shard个数有关。 例如,您需要查询的索引有5个主shard,则每秒执行shard查询的次数为5。 |
|
|
elasticsearch-server.query_took_in_millis.max | shard维度query阶段延迟max | shard维度shard查询阶段的延迟时间。 |
|
|
elasticsearch-server.fetch_total | shard维度fetch阶段QPS | shard维度shard召回阶段每秒的查询次数。 |
|
|
elasticsearch-server.fetch_took_in_millis.max | shard维度fetch阶段延迟max | shard维度shard召回阶段总耗时。 |
|
|
bulk(写入)
指标 | 指标含义 | 说明 | Tags | 聚合算子 |
elasticsearch-server.bulk_total_operations | 索引维度bulk请求tps | 索引维度,每秒bulk操作的次数。 |
|
|
elasticsearch-server.bulk_total_time_in_millis.max | 索引维度bulk请求延迟max | 索引维度,bulk操作总耗时。 |
|
|
elasticsearch-server.bulk_avg_size_in_bytes | 索引维度单条bulk平均大小 | 索引维度,单条bulk命令包含的请求平均大小。 |
|
|
elasticsearch-server.bulk_total_operations | node维度bulk请求tps | node维度,每秒bulk操作的次数。 |
|
|
elasticsearch-server.bulk_total_time_in_millis.max | node维度bulk请求延迟max | node维度,bulk操作总耗时。 |
|
|
elasticsearch-server.bulk_avg_size_in_bytes | node维度单条bulk平均大小 | node维度,单条bulk命令包含的请求平均大小。 |
|
|
elasticsearch-server.bulk_total_operations | shard维度bulk请求tps | shard维度,每秒bulk操作的次数。 |
|
|
elasticsearch-server.bulk_total_time_in_millis.max | shard维度bulk请求延迟max | shard维度,bulk操作总耗时。 |
|
|
elasticsearch-server.bulk_avg_size_in_bytes | shard维度单条bulk平均大小 | shard维度,单条bulk命令包含的请求平均大小。 |
|
|
Indexing Service
指标 | 指标含义 | 说明 | Tags | 聚合算子 |
elasticsearch-server.cube.follower_indices_throughput_in_bytes | Indexing Service写入流量 | 通过时序写入到Elasticsearch时,写入索引的流量大小。 |
|
|
elasticsearch-server.cube.follower_indices_store_size_in_bytes | Indexing Service 写入托管数据量 | 通过时序写入到Elasticsearch上,写入索引所占空间内存大小。 |
|
|
Openstore
不同的指标依赖于不同的内核版本,推荐将内核的小版本升级到最新版。
指标 | 指标含义 | 说明 | tag | 聚合算子 |
aliyunes.elasticsearch.node.stats.fs.total.available.bytes | Openstore混合存储元数据盘剩余可用空间。 |
重要 当元数据盘剩余可用空间小于20 GB(即20,000,000,000)时,建议通过高级监控报警设置元数据盘报警,并考虑对集群进行扩节点操作。 |
|
|
elasticsearch-server.openio.block_store_water_mark | Openstore混合存储数据盘实际使用水位。 |
重要 当数据盘实际使用水位长期超过85%时,建议考虑对集群进行扩节点操作。 |
|
|
elasticsearch-server.openio.oss_upload_throughput | 共享存储上传带宽(OpenStore混合存储实例)。 | 仅内核1.10及以上版本支持该指标。 |
|
|
elasticsearch-server.openio.oss_download_throughput | 共享存储下载带宽(OpenStore混合存储实例)。 | 仅内核1.10及以上版本支持该指标。 |
|
|
cache(缓存)
指标 | 指标含义 | 说明 | Tags | 聚合算子 |
elasticsearch-server.query_cache_shard_hit_total | 索引维度query_cache命中QPS | 从索引维度观察shard查询时,每秒命中节点缓存的查询次数。 |
|
|
elasticsearch-server.query_cache_shard_cached_total | 索引维度query_cache缓存QPS | 从索引维度观察shard查询时,每秒在节点缓存中新增的查询次数。 |
|
|
elasticsearch-server.query_cache_shard_miss_total | 索引维度query_cache miss QPS | 从索引维度观察shard查询时,每秒未命中节点缓存的查询次数。 |
|
|
elasticsearch-server.query_cache_shard_evictions_total | 索引维度query_cache踢出QPS | 从索引维度观察shard查询时,每秒从节点缓存中踢出的查询次数。 例如,当缓存已满时,将最近使用最少的查询结果踢出,以留出空间来存放新数据。 |
|
|
elasticsearch-server.query_cache_shard_hit_total | node维度query_cache命中QPS | 从node维度观察shard查询时,每秒命中节点缓存的查询次数。 |
|
|
elasticsearch-server.query_cache_shard_cached_total | node维度query_cache缓存QPS | 从node维度观察shard查询时,每秒在节点缓存中新增的查询次数。 |
|
|
elasticsearch-server.query_cache_shard_miss_total | node维度query_cache miss QPS | 从node维度观察shard查询时,每秒未命中节点缓存的查询次数。 |
|
|
elasticsearch-server.query_cache_shard_evictions_total | node维度query_cache踢出QPS | 从node维度观察shard查询时,每秒从节点缓存中踢出的查询次数。 |
|
|
elasticsearch-server.query_cache_shard_cached_size_in_bytes.max | node维度query_cache缓存大小max | shard查询时,从node维度观察节点缓存新增数据的总大小。 |
|
|
elasticsearch-server.query_cache_shard_hit_total | shard维度query_cache命中QPS | shard查询时,每秒命中节点缓存的查询次数。 |
|
|
elasticsearch-server.query_cache_shard_cached_total | shard维度query_cache缓存QPS | shard查询时,每秒在节点缓存中新增的查询次数。 |
|
|
elasticsearch-server.query_cache_shard_miss_total | shard维度query_cache miss QPS | shard查询时,每秒未命中节点缓存的查询次数。 |
|
|
elasticsearch-server.query_cache_shard_evictions_total | shard维度query_cache踢出QPS | shard查询时,每秒从节点缓存中踢出的查询次数。 |
|
|
elasticsearch-server.query_cache_shard_cached_size_in_bytes.max | shard维度query_cache缓存大小max | shard查询时,缓存新增数据的总大小。 |
|
|
refresh(可见性)
指标 | 指标含义 | 说明 | Tags | 聚合算子 |
elasticsearch-server.refresh_total | 索引维度refresh_qps | 刷新动作落在索引上每秒的查询次数。 |
|
|
elasticsearch-server.refresh_interval_in_millis.max | 索引维度refresh间隔max | 每次刷新动作落在索引之间的间隔。 |
|
|
elasticsearch-server.refresh_took_in_millis.max | 索引维度refresh动作耗时max | 刷新动作落在每条索引所占用时间。 |
|
|
elasticsearch-server.refresh_total | node维度refresh_qps | 刷新动作落在节点上每秒的查询次数。 |
|
|
elasticsearch-server.refresh_interval_in_millis.max | node维度refresh间隔max | 每次刷新动作落在节点之间的间隔。 |
|
|
elasticsearch-server.refresh_took_in_millis.max | node维度refresh动作耗时max | 刷新动作落在每个节点所占用时间。 |
|
|
elasticsearch-server.refresh_total | shard维度refresh_qps | 刷新动作落在索引shard上每秒的查询次数。 |
|
|
elasticsearch-server.refresh_interval_in_millis.max | shard维度refresh间隔max | 每次刷新动作落在索引shard之间的间隔。 |
|
|
elasticsearch-server.refresh_took_in_millis.max | shard维度refresh动作耗时max | 刷新动作落在每个索引shard所占用时间。 |
|
|
merge(合并)
指标 | 指标含义 | 说明 | Tags | 聚合算子 |
elasticsearch-server.merge_total | 索引维度merge_qps | 刷索引merge阶段每秒的查询次数。 |
|
|
elasticsearch-server.merge_took_in_millis.max | 索引维度merge耗时max | 索引merge数据时所用时间。 |
|
|
elasticsearch-server.merge_size_in_bytes.max | 索引维度merge大小max | 索引merge数据后占用的内存大小。 |
|
|
elasticsearch-server.merge_total | node维度merge_qps | 各节点merge阶段每秒的查询次数。 |
|
|
elasticsearch-server.merge_took_in_millis.max | node维度merge耗时max | 各节点merge数据时所用时间。 |
|
|
elasticsearch-server.merge_size_in_bytes.max | node维度merge大小max | 各节点merge数据后占用的内存大小。 |
|
|
elasticsearch-server.merge_total | shard维度merge_qps | 索引shard在merge阶段每秒的查询次数。 |
|
|
elasticsearch-server.merge_took_in_millis.max | shard维度merge耗时max | 索引shard在merge数据时所用时间。 |
|
|
elasticsearch-server.merge_size_in_bytes.max | shard维度merge大小max | 索引shard在merge数据后占用的内存大小。 |
|
|
cluster state(集群元数据)
指标 | 指标含义 | 说明 | Tags | 聚合算子 |
elasticsearch-server.applied_cluster_state_count | cluster_state本地应用QPS | Master节点同步集群状态给其他节点,其他节点接收成功的次数。 |
|
|
elasticsearch-server.applied_cluster_state_took_in_millis.max | cluster_state本地应用耗时max | Master节点同步集群状态给其他节点,其他节点接收成功所消耗的时间。 |
|
|
elasticsearch-server.publish_time_in_millis.max | cluster state广播耗时max | 集群状态广播耗时。 |
|
|
elasticsearch-server.failed_cluster_state_count | cluster_state本地应用失败QPS | Master节点同步集群状态给其他节点,其他节点接收失败的次数。 |
|
|
elasticsearch-server.failed_cluster_state_took_in_millis.max | cluster_state本地应用失败耗时max | Master节点同步集群状态给其他节点,其他节点接收失败所消耗的时间。 |
|
|
elasticsearch-server.task_execution_count | master处理task QPS | 集群状态变化次数。 例如当集群中存在频繁的节点变更、频繁的设置索引Mapping和Setting等操作时,Master节点都会重新计算集群状态变化次数。 重要 状态变化次数越大,说明集群或索引存在频繁的变更,可能会影响集群的稳定性。 |
|
|
elasticsearch-server.task_execution_time_in_millis.max | master处理task耗时max | Master节点获取集群状态所消耗的时间。 |
|
|
elasticsearch-server.task_wait_time_in_millis.max | task队列等待时间max | 每个获取集群状态的任务在Master节点的任务队列中的等待时间。 |
|
|
segment replication(物理复制)
指标 | 指标含义 | 说明 | Tags | 聚合算子 |
elasticsearch-server.segment_replication.refresh_copy_file_size | 索引维度增量拷贝平均大小 | 使用物理复制功能时,每次索引维度执行refresh操作,拷贝主副本增量数据的大小。 |
|
|
elasticsearch-server.segment_replication.refresh_copy_file_size | node维度增量拷贝平均大小 | 使用物理复制功能时,每次node维度执行refresh操作,拷贝主副本增量数据的大小。 |
|
|
elasticsearch-server.segment_replication.refresh_copy_file_size | shard维度增量拷贝大小 | 使用物理复制功能时,每次shard维度执行refresh操作,拷贝主副本增量数据的大小。 |
|
|
elasticsearch-server.segment_replication.refresh_latency_time | 索引维度增量拷贝延迟-avg | 使用物理复制功能时,每次索引维度执行refresh操作所消耗的平均值时间。 |
|
|
elasticsearch-server.segment_replication.refresh_latency_time | 索引维度增量拷贝延迟-max | 使用物理复制功能时,每次索引维度执行refresh操作所消耗的最大值时间。 |
|
|
elasticsearch-server.segment_replication.refresh_latency_time | node维度增量拷贝延迟-avg | 使用物理复制功能时,每次node维度执行refresh操作所消耗的平均值时间。 |
|
|
elasticsearch-server.segment_replication.refresh_latency_time | shard维度增量拷贝延迟-avg | 使用物理复制功能时,每次执行refresh操作所消耗的平均值时间。 |
|
|
elasticsearch-server.segment_replication.refresh_latency_time | shard维度增量拷贝延迟-max | 使用物理复制功能时,每次shard维度执行refresh操作所消耗的最大值时间。 |
|
|
elasticsearch-server.segment_replication.merge_copy_file_size | 索引维度merge预拷贝平均大小 | 使用物理复制功能时,每次索引维度merge阶段结束后,拷贝到副本的平均值数据大小。 |
|
|
elasticsearch-server.segment_replication.merge_copy_file_size | node维度merge预拷贝平均大小 | 使用物理复制功能时,每次node维度merge阶段结束后,拷贝到副本的平均值数据大小。 |
|
|
elasticsearch-server.segment_replication.merge_copy_file_size | shard维度merge预拷贝大小 | 使用物理复制功能时,每次shard维度merge阶段结束后,拷贝到副本的平均值数据大小。 |
|
|
elasticsearch-server.segment_replication.merge_latencc | 索引维度merge预拷贝延迟-avg | 使用物理复制功能时,每次索引维度merge阶段结束后,数据拷贝到副本所消耗的平均值时间。 |
|
|
elasticsearch-server.segment_replication.merge_latencc | 索引维度merge预拷贝延迟-max | 使用物理复制功能时,每次索引维度merge阶段结束后,数据拷贝到副本所消耗的最大值时间。 |
|
|
elasticsearch-server.segment_replication.merge_latencc | node维度merge预拷贝延迟-avg | 使用物理复制功能时,每次node维度merge阶段结束后,数据拷贝到副本所消耗的平均值时间。 |
|
|
elasticsearch-server.segment_replication.merge_latencc | shard维度merge预拷贝延迟-avg | 使用物理复制功能时,每次shard维度merge阶段结束后,数据拷贝到副本所消耗的平均值时间。 |
|
|
elasticsearch-server.segment_replication.merge_latencc | shard维度merge预拷贝延迟-max | 使用物理复制功能时,每次shard维度merge阶段结束后,数据拷贝到副本所消耗的最大值时间。 |
|
|
elasticsearch-server.segment_replication.replica_checkpoint_gap | 索引维度replica和复制位点的gap | 使用物理复制功能时,每次索引checkpoint阶段中复制位点的间隙数. |
|
|
elasticsearch-server.segment_replication.replica_checkpoint_gap | node维度replica和复制位点的gap | 使用物理复制功能时,每次node checkpoint阶段中复制位点的间隙数。 |
|
|
elasticsearch-server.segment_replication.replica_checkpoint_gap | shard维度replica和复制位点的gap | 使用物理复制功能时,每次shard checkpoint阶段中复制位点的间隙数。 |
|
|
elasticsearch-server.segment_replication.refresh_count | shard维度增量拷贝QPS | 使用物理复制功能时,每次执行refresh操作进行增量数据拷贝的QPS。 |
|
|
elasticsearch-server.segment_replication.merge_error_count | shard维度增量拷贝失败QPS | 使用物理复制功能,数据拷贝异常的QPS。 |
|
|
elasticsearch-server.segment_replication.merge_error_count | shard维度merge预拷贝失败QPS | 使用物理复制功能,在merge阶段,数据拷贝异常的QPS。 |
|
|
elasticsearch-server.segment_replication.merge_count | shard维度merge预拷贝QPS | merge合并次数。 |
|
|
elasticsearch-server.segment_replication.checkpoint_gap_count | shard维度gap汇报的QPS | 使用物理复制功能,在checkpoint阶段的间隙数QPS。 |
|
|
elasticsearch-server.segment_replication.primary_checkpoint_gap.max | shard维度primary和复制位点的gap | 使用物理复制功能,在副本的checkpoint阶段间隙数大小。 |
|
|
isolator(隔离池)
指标 | 指标含义 | 说明 | Tags | 聚合算子 |
elasticsearch-server.isolator_tasks_isolated_total | 索引维度query isolated_total | 索引维度每秒慢查询隔离池中索引的查询数量。 |
|
|
elasticsearch-server.isolator_tasks_killed_total | 索引维度query cancel QPS | 索引维度每秒慢查询隔离池中索引触发熔断的查询数量。 |
|
|
elasticsearch-server.isolator_tasks_killed_mem_size_in_bytes.max | 索引维度query cancel mem_size_in_bytes max | 慢查询隔离池中索引触发熔断的查询消耗内存大小。 |
|
|
elasticsearch-server.isolator_tasks_isolated_total | node维度query isolated_total | 每秒慢查询隔离池中节点的查询数量。 |
|
|
elasticsearch-server.isolator_tasks_killed_total | node维度query cancel QPS | 每秒慢查询隔离池中节点触发熔断的查询数量。 |
|
|
elasticsearch-server.isolator_tasks_killed_mem_size_in_bytes.max | node维度query cancel mem_size_in_bytes max | 慢查询隔离池中节点触发熔断的查询消耗内存大小。 |
|
|
elasticsearch-server.isolator_tasks_isolated_total | shard维度query isolated_total | 每秒慢查询隔离池中索引shard的查询数量。 |
|
|
elasticsearch-server.isolator_tasks_killed_total | shard维度query cancel QPS | 每秒慢查询隔离池中索引shard触发熔断的查询数量。 |
|
|
elasticsearch-server.isolator_tasks_killed_mem_size_in_bytes.max | shard维度query cancel mem_size_in_bytes max | 慢查询隔离池中索引shard触发熔断的查询消耗内存大小。 |
|
|