Elasticsearch集群运行过程中,集群状态异常、节点磁盘使用率过高等问题会直接影响服务可用性。通过配置监控报警,可以实时感知集群异常并及时处理。Elasticsearch支持一键报警和云监控自定义报警两种方式。
开启一键报警
一键报警由云监控提供,默认关闭。开启后,系统自动创建以下报警规则,作用于当前账号下的全部Elasticsearch实例:
集群状态异常
节点磁盘使用率异常(>75%)
节点JVM Heap异常(>85%)
在左侧导航栏,单击Elasticsearch实例。
在Elasticsearch实例页面,单击一键报警。
在一键报警对话框中,单击前往开启。
说明如果界面显示前往关闭,表明一键报警功能已开启,无需继续执行以下操作。
在云监控控制台中,打开Elasticsearch服务的一键报警开关。
(可选)返回阿里云Elasticsearch控制台,验证一键报警是否已开启。
在Elasticsearch实例页面,单击目标实例ID。
在左侧导航栏,选择 监控与日志 > 集群监控 。
单击基础监控页签,在页面右上角查看一键报警的状态。
如果一键报警为已开启状态,表示一键报警已生效。
配置云监控报警
一键报警提供的规则为固定模板,如果需要自定义监控指标、报警阈值和通知方式,可通过云监控创建自定义报警规则。
进入云监控控制台。
在左侧导航栏,选择报警服务 > 报警规则。
单击创建报警规则。
在创建报警规则页面,设置报警规则。
以下示例配置集群状态、节点磁盘使用率、节点堆内存使用率三个组合指标的报警规则。未提及的参数保持默认,详细参数说明请参见创建报警规则。
参数
说明
产品
选择 Elasticsearch 。
资源范围
选择 实例 。
关联资源
添加待监控的实例。
规则描述
单击 添加规则 > 组合指标 ,在 设置规则描述 面板中配置以下参数:
指标类型:选择组合指标。
报警级别:选择警告(Warn)。
多指标报警描述:
说明
本文示例此处配置三个监控指标,单击添加指标即可新增指标描述。
指标一:选择,并配置监控值>=2。
指标二:选择,并配置平均值>=75%。
指标三:选择,并配置平均值>=85%。
多指标关系:选择有一个满足条件就报警(||)。
报警阈值触发次数:选择连续3个周期(1周期=1分钟)。
您也可以通过配置单指标报警规则实现磁盘水位报警,详细信息请参见配置磁盘报警示例。
报警联系人组
选择已创建的报警联系人组。如未创建,请参见创建报警联系人或报警联系人组。
规则描述的详细配置如下:
参数
配置说明
指标类型
选择 组合指标 。
报警级别
选择 警告(Warn) 。
多指标报警描述
单击 添加指标 新增指标描述,配置以下三个监控指标:
指标一:选择 集群ID > 集群状态 ,配置监控值>=2。
指标二:选择 nodeName > 节点磁盘使用率 ,配置平均值>=75%。
指标三:选择 nodeName > 节点堆内存使用率_ES业务 ,配置平均值>=85%。
多指标关系
选择 有一个满足条件就报警(||)。
报警阈值触发次数
选择 连续3个周期(1周期=1分钟)。
如需配置单指标报警规则(例如磁盘水位报警),请参见配置磁盘报警示例。
打开高级设置,可在报警回调中填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址。目前仅支持HTTP协议,详细信息请参见使用阈值报警回调。
配置报警规则时,可参考以下监控指标选择需要监控的项目。更多信息,请参见指标含义与异常处理建议。
监控项
必要性
建议阈值
说明
集群状态
必选
监控值>=2
集群状态Green、Yellow、Red分别对应数值0.00、1.00、2.00。{#234fde02deqpn}配置报警指标时按数值大小设置。
节点磁盘使用率(%)
必选
平均值>=75%
不超过80%。
节点HeapMemory使用率(%)
必选
平均值>=85%
不超过90%。在规则描述中显示为 节点堆内存使用率_ES业务 。
节点CPU使用率(%)
可选
平均值>=95%
-
节点Load_1m
可选
以CPU核数的80%为参考值
-
集群查询QPS(Count/Second)
可选
以实际测试结果为参考
-
集群写入QPS(Count/Second)
可选
以实际测试结果为参考
-
FullGc次数(个)
可选
数值不为0时异常
-
Exception次数(个)
可选
数值不为0时异常
-
快照状态
可选
数值为2时异常
数值为-1或0时正常。
单击确认 。
报警规则创建后,当监控指标触发报警条件时,报警联系人组中的成员会收到报警通知。通知方式的配置请参见通过钉钉群接收报警通知。
配置磁盘报警示例
磁盘水位报警是最常用的单指标报警场景。当节点磁盘使用率超过阈值时,需要及时扩容或清理数据,避免磁盘写满导致服务不可用。
按照配置云监控报警的步骤创建报警规则,在规则描述中选择添加规则 >简单指标 ,参数配置示例如下。
参数 | 示例 |
规则名称 | 磁盘水位报警 |
指标类型 | 选择简单指标 。 |
监控指标 | 选择nodeName > 节点磁盘使用率。 |
阈值及报警级别 |
|
监控图表预览 | 监控指标的监控图表预览效果。 |