高级监控报警功能支持丰富的Elasticsearch指标,基于这些指标,您可以通过Grafana查看集群所有指标的监控大图。您也可以配置监控报警规则,实时监控集群性能并发送报警通知。本文为您介绍阿里云Elasticsearch各监控报警指标的含义。

注意
  • tags是指标的属性标签,不同的指标支持不同粒度的tags。通过配置tags,您可以进一步过滤指标数据。
  • 以下tags在通用tags属性(instanceId、ip)的基础上,进行了更细粒度的划分。未提到的tags不在Elasticsearch的监控范围内,例如hostname、kmon_tenant_name、kmon_service_name。
类别 指标 说明 类型 tags
查询 search_total 每秒端到端查询次数。

例如客户端每秒发送两个查询index的请求,则search_total为2。

QPS indexName
search_time_in_millis 端到端查询延迟。 Gauge indexName
aggregation_total 每秒端到端聚合查询的次数。

例如客户端每秒发送两个聚合查询请求,则aggregation_total为2。

QPS indexName
reduced_bucket_count 每秒聚合查询消费的Bucket数量。 QPS
allocated_bytes 聚合查询分配的内存大小。 Gauge
query_total 每秒执行shard查询的次数,主要与shard个数有关。

例如,您需要查询的索引有5个主shard,则每秒执行shard查询的次数为5。

QPS

indexName

shardId

primary

query_time_in_millis shard查询阶段的延迟。 Gauge

indexName

shardId

primary

fetch_total shard召回阶段每秒的查询次数。 QPS

indexName

shardId

primary

fetch_time_in_millis shard召回阶段总耗时。 Gauge

indexName

shardId

primary

写入 refresh_took_in_millis 执行一次refresh操作需要的时间。 Gauge

indexName

shardId

primary

refresh_interval_in_millis refresh操作执行的时间间隔。即前一次和后一次执行refresh操作的时间差。 Gauge

indexName

shardId

primary

merge_total 每秒执行merge操作的总次数。 QPS

indexName

shardId

merge_total_time_in_millis 执行merge操作的总耗时。 Gauge

indexName

shardId

merge_total_size_in_bytes 每秒进行merge操作的索引的总大小。 Gauge

indexName

shardId

bulk_total_operations shard维度,每秒bulk操作的次数。 QPS

indexName

shardId

bulk_total_time_in_millis shard维度,bulk操作总耗时。 Gauge

indexName

shardId

bulk_total_size_in_bytes shard维度,单条bulk命令包含的请求总大小。 Gauge

indexName

shardId

物理复制 refresh_copy_file_size 使用物理复制功能时,每次执行refresh操作,拷贝主副本增量数据的大小。 Gauge

indexName

shardId

refresh_latency_time 使用物理复制功能时,每次执行refresh操作所消耗的时间。 Gauge

indexName

shardId

refresh_count 使用物理复制功能时,每次执行refresh操作进行增量数据拷贝的QPS(Query Per Second)。 QPS

indexName

shardId

refresh_error_count 使用物理复制功能时,每次执行refresh操作进行增量数据拷贝,出现异常的QPS。 QPS

indexName

shardId

merge_copy_file_size 使用物理复制功能时,每次merge阶段结束后,拷贝到副本的数据大小。 Gauge

indexName

shardId

merge_latency_time 使用物理复制功能时,每次merge阶段结束后,数据拷贝到副本所消耗的时间。 Gauge

indexName

shardId

merge_count 使用物理复制功能时,在merge阶段,数据拷贝的QPS。 QPS

indexName

shardId

merge_error_count 使用物理复制功能,在merge阶段,数据拷贝异常的QPS。 QPS

indexName

shardId

缓存 query_cache_shard_hit_total shard查询时,每秒命中节点缓存的查询次数。 QPS

indexName

shardId

query_cache_shard_cached_total shard查询时,每秒在节点缓存中新增的查询次数。 QPS

indexName

shardId

query_cache_shard_miss_total shard查询时,每秒未命中节点缓存的查询次数。 QPS

indexName

shardId

query_cache_shard_cached_size_in_bytes shard查询时,节点缓存新增数据的总大小。 Gauge

indexName

shardId

query_cache_shard_evictions_total shard查询时,每秒从节点缓存中踢出的查询次数。例如,当缓存已满时,将最近使用最少的查询结果踢出,以留出空间来存放新数据。 QPS

indexName

shardId

集群状态 applied_cluster_state_count Master节点同步集群状态给其他节点,其他节点接收成功的次数。 QPS
applied_cluster_state_took_in_millis Master节点同步集群状态给其他节点,其他节点接收成功所消耗的时间。 Gauge
publish_time_in_millis 集群状态广播耗时。 Gauge
failed_cluster_state_count Master节点同步集群状态给其他节点,其他节点接收失败的次数。 QPS
failed_cluster_state_took_in_millis Master节点同步集群状态给其他节点,其他节点接收失败所消耗的时间。 Gauge
task_execution_count 集群状态变化次数。
例如当集群中存在频繁的节点变更、频繁的设置索引Mapping和Setting等操作时,Master节点都会重新计算集群状态变化次数。
注意 状态变化次数越大,说明集群或索引存在频繁的变更,可能会影响集群的稳定性。
QPS
task_execution_time_in_millis Master节点获取集群状态所消耗的时间。 Gauge
task_wait_time_in_millis 每个获取集群状态的任务在Master节点的任务队列中的等待时间。 Gauge