阿里云Elasticsearch为运行中的集群提供了多项监控指标(例如集群状态、集群查询QPS、节点CPU使用率、节点磁盘使用率等),用来监测集群的运行状况。您可以根据这些指标,实时了解集群的运行状况,及时处理潜在风险,保障集群稳定运行。本文介绍如何查看集群监控详情,以及各监控指标含义、异常原因和异常处理建议。
查看集群监控详情
- 登录阿里云Elasticsearch控制台。
- 在左侧导航栏,单击Elasticsearch实例。
- 在顶部菜单栏处,选择资源组和地域,然后在实例列表中单击目标实例ID。
- 在左侧导航栏,单击集群监控。
- 在集群监控区域,单击监控时段,查看该时段内的监控详情。您也可以单击自定义图标,选择开始时间和结束时间,单击确定,查看自定义时间段内的监控详情。说明 Elasticsearch实例的监控报警默认为开启状态,因此您可以在集群监控页面查看历史监控数据。目前只保留30天内的监控信息,并且提供分钟粒度的数据。
集群状态
- 指标含义
- 指标异常原因监控期间,当指标数值不为0.00时,表示集群状态异常,常见原因如下:
- 节点的CPU或HeapMemory使用率过高,甚至达到100%。
- 节点的磁盘使用率过高(例如节点磁盘使用率超过85%),甚至达到100%。
- 节点的load_1m负载过高。
- 集群中索引的健康度出现过非健康(非绿色)状态。
- 异常处理建议
- 在Kibana控制台的Monitoring页面查看监控信息,或者查看实例的日志,获取问题的具体信息,并排查解决(例如索引占用内存太大,可删除一些索引)。
- 对于磁盘使用率过高导致集群异常的情况,建议参见集群磁盘使用率过高和read_only问题的排查与处理方法排查解决。
- 对于1核2GB规格的实例,遇到实例状态不正常的问题时,建议先按照1:4(CPU:Mem)的规格升配集群,增大实例规格。升配后,如果状态依然异常,建议参见以上两种方案排查解决。
集群查询QPS(Count/Second)
指标含义
集群查询QPS监控指标展示了集群每秒执行的查询QPS数量,查询QPS数量与待查询索引的主分片个数有关。例如待查询索引有5个主分片,则一次查询请求对应5个QPS。
集群写入QPS(Count/Second)
指标含义
- 如果1秒内,客户端向集群发送了1个只包含单个文档的写入请求,则对应1个写入QPS。如果1秒内发送了多个写入请求,则累加统计。
- 如果1秒内,通过_bulk API在一个写入请求中批量写入了多个文档,则写入QPS参考该请求中批量推送的总文档个数。如果1秒内发送了多个_bulk API批量写入请求,则累加统计。
节点CPU使用率(%)
- 指标含义
节点CPU使用率监控指标展示了集群中各节点的CPU使用率百分比。当CPU使用率较高或接近100%时,会影响集群服务。
- 指标异常原因监控期间,当指标数值突增或波动较大时,服务异常,常见原因如下:
- 查询QPS或写入QPS流量突增或波动较大。
- 存在个别慢查询或慢写入请求。
此情况下,查询和写入QPS流量波动较小或不明显,可在阿里云Elasticsearch控制台中的日志查询页面,单击searching慢日志查看分析。
- 集群中存在大量索引或总分片数量非常多。
由于Elasticsearch会监控集群中的索引并写入日志,因此当总索引或总分片数量过多时,容易引起CPU或HeapMemory使用率过高,或load_1m负载过高。
- 在集群上执行过Merge操作。
Merge操作会消耗CPU资源,对应节点的Segment Count会突降,可在Kibana控制台中节点的Overview页面查看。
- 执行过GC操作。
GC操作会尝试释放内存(例如FULL GC),消耗CPU资源。可能会导致CPU使用率突增。
- 执行过定时任务,例如数据备份或其他自定义任务。
节点磁盘使用率(%)
指标含义
节点磁盘使用率 | 说明 |
---|---|
>85% | 新的shard无法分配。 |
>90% | 集群会尝试将节点中的shard,迁移到其他磁盘使用率较低的数据节点中。 |
>95% | Elasticsearch会为集群中的每个索引强制设置read_only_allow_delete 属性,此时索引将无法写入数据,只能读取和删除。
|
节点HeapMemory使用率(%)
- 指标含义
节点HeapMemory使用率监控指标展示了集群中各节点的HeapMemory使用率百分比。当HeapMemory使用率较高或存在较大的内存对象时,会影响集群服务,也会自动触发GC操作。
- 指标异常原因监控期间,当指标数值突增或波动较大时,服务异常,常见原因如下:
- 查询QPS或写入QPS流量突增或波动较大。
- 存在个别慢查询或慢写入请求。
此情况下,查询和写入QPS流量波动较小或不明显,可在阿里云Elasticsearch控制台中的日志查询页面,单击searching慢日志查看分析。
- 存在大量慢查询或慢写入请求。
此情况下,查询和写入QPS流量波动较大或很明显,可在阿里云Elasticsearch控制台中的日志查询页面,单击indexing慢日志查看分析。
- 集群中存在大量索引或总分片数量非常多。
由于Elasticsearch会监控集群中的索引并写入日志,因此当总索引或总分片个数过多时,容易引起CPU或HeapMemory使用率过高,或load_1m负载过高。
- 在集群上执行过Merge操作。
Merge操作会消耗CPU资源,对应节点的Segment Count会突降,可在Kibana控制台中节点的Overview页面查看。
- 执行过GC操作。
GC操作会尝试释放内存(例如FULL GC),消耗CPU资源。可能会导致HeapMemory使用率突降。
- 执行过定时任务,例如数据备份或其他自定义任务。
节点load_1m
- 指标含义节点load_1m监控指标展示了集群中各节点在1分钟内的负载情况,表示各节点的系统繁忙程度。该指标的正常数值,应该低于对应节点规格的CPU核数。以单核的Elasticsearch节点为例,指标各数值的含义如下。
节点load_1m 说明 <1 没有等待的进程。 =1 系统无额外的资源运行更多的进程。 >1 进程拥堵,等待资源。 - 指标异常原因监控期间,当指标数值超过节点规格的CPU核数时,服务异常,常见原因如下:
- 节点的CPU或HeapMemory使用率过高,甚至达到100%。
- 查询QPS或写入QPS流量突增或上涨较大。
- 存在耗时较大的慢查询。
可在阿里云Elasticsearch控制台中的日志查询页面,打开对应日志查看分析。
FullGc次数(个)
- 指标含义
FullGc次数监控指标展示了集群中1分钟内的GC总次数。
- 指标异常原因监控期间,当指标数值不为0时,服务异常,常见原因如下:
- HeapMemory使用率较高。
- 存在较大的内存对象。
Exception次数(个)
- 指标含义
Exception次数监控指标展示了集群的主日志中,一分钟内出现的警告级别日志的总个数。
- 指标异常原因监控期间,当指标数值不为0时,服务异常,常见原因如下:
- 查询请求可能存在异常。
- 写入请求可能存在异常。
- Elasticsearch执行任务时,遇到异常。
- 执行过GC操作。
- 异常处理建议可在阿里云Elasticsearch控制台中的日志查询页面,单击主日志。在主日志页面,根据时间点查看详细异常信息,并分析异常原因。说明 如果主日志中有GC记录,也会在Exception次数监控指标中统计展示。
快照状态
- 指标含义快照状态监控指标展示了Elasticsearch控制台中,自动备份功能的快照状态。当指标数值为-1或0时,表示服务正常。指标各数值的含义如下。
快照状态 说明 0 有快照。 -1 没有快照。 1 正在进行快照。 2 快照任务失败。 - 指标异常原因指标数值为2时,服务异常,常见原因如下:
- 节点磁盘使用率很高或接近100%。
- 集群不健康。
在文档使用中是否遇到以下问题
更多建议
匿名提交