高级监控报警服务能够为您提供丰富的Elasticsearch指标,其中引擎指标是基于阿里云工程师丰富的运维经验,自主研发和采集的包括集群状态、查询、写入和缓存等方面的各项指标,能够帮助您更好地排查Elasticsearch集群引擎性能及稳定性问题。通过使用高级监控报警服务,您不仅可以查看集群引擎指标大盘,还可以自定义相关报警规则,实时监控集群性能并发送报警通知。本文为您介绍阿里云Elasticsearch各引擎指标的含义。

注意
  • Tags是指标的属性标签,不同的指标支持不同粒度的Tags。通过配置Tags,您可以进一步过滤指标数据。
  • 以下Tags在通用Tags属性(instanceId、ip)的基础上,进行了更细粒度的划分。未提到的Tags不在Elasticsearch的监控范围内,例如hostname、kmon_tenant_name、kmon_service_name。
类别 指标 说明 类型 Tags
查询 search_total 每秒端到端查询次数。

例如客户端每秒发送两个查询index的请求,则search_total为2。

QPS indexName
search_time_in_millis 端到端查询延迟。 Gauge indexName
aggregation_total 每秒端到端聚合查询的次数。

例如客户端每秒发送两个聚合查询请求,则aggregation_total为2。

QPS indexName
reduced_bucket_count 每秒聚合查询消费的Bucket数量。 QPS
allocated_bytes 聚合查询分配的内存大小。 Gauge
query_total 每秒执行shard查询的次数,主要与shard个数有关。

例如,您需要查询的索引有5个主shard,则每秒执行shard查询的次数为5。

QPS
  • indexName
  • shardId
  • primary
query_time_in_millis shard查询阶段的延迟。 Gauge
  • indexName
  • shardId
  • primary
fetch_total shard召回阶段每秒的查询次数。 QPS
  • indexName
  • shardId
  • primary
fetch_time_in_millis shard召回阶段总耗时。 Gauge
  • indexName
  • shardId
  • primary
写入 refresh_took_in_millis 执行一次refresh操作需要的时间。 Gauge
  • indexName
  • shardId
  • primary
refresh_interval_in_millis refresh操作执行的时间间隔。即前一次和后一次执行refresh操作的时间差。 Gauge
  • indexName
  • shardId
  • primary
merge_total 每秒执行merge操作的总次数。 QPS
  • indexName
  • shardId
merge_total_time_in_millis 执行merge操作的总耗时。 Gauge
  • indexName
  • shardId
merge_total_size_in_bytes 每秒进行merge操作的索引的总大小。 Gauge
  • indexName
  • shardId
bulk_total_operations shard维度,每秒bulk操作的次数。 QPS
  • indexName
  • shardId
bulk_total_time_in_millis shard维度,bulk操作总耗时。 Gauge
  • indexName
  • shardId
bulk_total_size_in_bytes shard维度,单条bulk命令包含的请求总大小。 Gauge
  • indexName
  • shardId
物理复制 refresh_copy_file_size 使用物理复制功能时,每次执行refresh操作,拷贝主副本增量数据的大小。 Gauge
  • indexName
  • shardId
refresh_latency_time 使用物理复制功能时,每次执行refresh操作所消耗的时间。 Gauge
  • indexName
  • shardId
refresh_count 使用物理复制功能时,每次执行refresh操作进行增量数据拷贝的QPS(Query Per Second)。 QPS
  • indexName
  • shardId
refresh_error_count 使用物理复制功能时,每次执行refresh操作进行增量数据拷贝,出现异常的QPS。 QPS
  • indexName
  • shardId
merge_copy_file_size 使用物理复制功能时,每次merge阶段结束后,拷贝到副本的数据大小。 Gauge
  • indexName
  • shardId
merge_latency_time 使用物理复制功能时,每次merge阶段结束后,数据拷贝到副本所消耗的时间。 Gauge
  • indexName
  • shardId
merge_count 使用物理复制功能时,在merge阶段,数据拷贝的QPS。 QPS
  • indexName
  • shardId
merge_error_count 使用物理复制功能,在merge阶段,数据拷贝异常的QPS。 QPS
  • indexName
  • shardId
缓存 query_cache_shard_hit_total shard查询时,每秒命中节点缓存的查询次数。 QPS
  • indexName
  • shardId
query_cache_shard_cached_total shard查询时,每秒在节点缓存中新增的查询次数。 QPS
  • indexName
  • shardId
query_cache_shard_miss_total shard查询时,每秒未命中节点缓存的查询次数。 QPS
  • indexName
  • shardId
query_cache_shard_cached_size_in_bytes shard查询时,节点缓存新增数据的总大小。 Gauge
  • indexName
  • shardId
query_cache_shard_evictions_total shard查询时,每秒从节点缓存中踢出的查询次数。例如,当缓存已满时,将最近使用最少的查询结果踢出,以留出空间来存放新数据。 QPS
  • indexName
  • shardId
集群状态 applied_cluster_state_count Master节点同步集群状态给其他节点,其他节点接收成功的次数。 QPS
applied_cluster_state_took_in_millis Master节点同步集群状态给其他节点,其他节点接收成功所消耗的时间。 Gauge
publish_time_in_millis 集群状态广播耗时。 Gauge
failed_cluster_state_count Master节点同步集群状态给其他节点,其他节点接收失败的次数。 QPS
failed_cluster_state_took_in_millis Master节点同步集群状态给其他节点,其他节点接收失败所消耗的时间。 Gauge
task_execution_count 集群状态变化次数。
例如当集群中存在频繁的节点变更、频繁的设置索引Mapping和Setting等操作时,Master节点都会重新计算集群状态变化次数。
注意 状态变化次数越大,说明集群或索引存在频繁的变更,可能会影响集群的稳定性。
QPS
task_execution_time_in_millis Master节点获取集群状态所消耗的时间。 Gauge
task_wait_time_in_millis 每个获取集群状态的任务在Master节点的任务队列中的等待时间。 Gauge
资源隔离池 isolator_tasks_isolated_total 每秒慢查询隔离池中的查询的数量。 QPS
  • indexName
  • shardId
isolator_tasks_killed_total 每秒慢查询隔离池中触发熔断的查询数量。 QPS
  • indexName
  • shardId
isolator_tasks_killed_mem_size_in_bytes 慢查询隔离池中触发熔断的查询消耗的内存大小。 Gauge
  • indexName
  • shardId