阿里云Elasticsearch支持监控实例,以及自定义报警阈值和接收报警信息。为避免出现集群状态不正常、节点磁盘使用率过高等问题影响Elasticsearch服务,强烈建议您配置监控报警,实时监控集群状态、节点磁盘使用率等信息,及时查收报警通知,提前做好防御措施。本文介绍如何为Elasticsearch实例配置报警,包括一键报警和云监控报警。
开启一键报警
阿里云Elasticsearch的一键报警功能由云监控提供,默认处于关闭状态。开启一键报警功能后系统会创建集群状态异常、节点磁盘使用率异常(>75%)、节点JVM Heap异常(>85%)等报警规则,作用于阿里云账号下的全部Elasticsearch实例。
- 登录阿里云Elasticsearch控制台。
- 在左侧导航栏,单击Elasticsearch实例。
在Elasticsearch实例页面,单击一键报警。
在一键报警对话框中,单击前往开启。
说明如果界面显示前往关闭,表明一键报警功能已开启,无需继续执行以下操作。
在云监控控制台中,打开Elasticsearch服务的一键报警开关。
(可选)返回阿里云Elasticsearch控制台,查看是否已经成功开启一键报警功能。
在Elasticsearch实例页面,单击目标实例ID。
在左侧导航栏,选择
。单击基础监控页签,在页面右上角,查看一键报警的状态。
如果一键报警为已开启状态,表示您已经成功开启了一键报警。
配置云监控报警
进入云监控控制台。
在左侧导航栏,选择 。
单击创建报警规则。
在创建报警规则页面,设置报警规则。
以添加节点磁盘使用率监控、集群状态监控、节点HeapMemory使用率监控为例,参数配置如下,未提及的参数保持默认,详细参数说明请参见创建报警规则。
参数
说明
产品
选择Elasticsearch。
资源范围
选择实例。
关联资源
选择待监控的实例。
规则描述
单击添加规则,在添加规则描述面板,填写规则名称,并按照以下说明进行配置:
指标类型:选择多指标。
报警级别:选择警告(Warn)。
指标类型:选择标准创建。
多指标报警描述:
选择
的监控值>=2.0选择
的平均值>=75%选择
的平均值>=85%
多指标关系:选择有一个满足就报警。
发出报警需要满足达到阈值的次数:选择连续3个周期。
您也可以通过配置单指标报警规则实现磁盘水位报警,详细信息请参见配置磁盘报警示例。
报警联系人组
选择您已创建的报警联系人组。关于如何创建报警联系人组,请参见创建报警联系人或报警联系组。
说明您还可以打开高级设置,在报警回调中填写可通过公网访问的URL,云监控会将报警信息通过POST请求推送到该地址。目前仅支持HTTP协议,详细信息请参见使用阈值报警回调。
在配置阿里云Elasticsearch的报警规则时,您可以参考以下监控指标说明选择监控指标。更多监控指标信息,请参见指标含义与异常处理建议。
监控项
说明
集群状态
必选。主要监控集群状态为正常(绿色)还是非正常(黄色或红色)。
集群状态对应Green、Yellow、Red,转换成数值对应0.00、1.00、2.00,所以在配置集群状态报警指标时,需要按照对应数值的大小配置。
节点磁盘使用率(%)
必选。报警阈值控制在75%以下,不要超过80%。
节点HeapMemory使用率(%)
必选。报警阈值控制在85%以下,不要超过90%。
节点CPU使用率(%)
可选。报警阈值控制在95%以下,不要超过95%。
节点Load_1m
可选。以CPU核数的80%为参考值。
集群查询QPS(Count/Second)
可选。以实际测试结果作为参考。
集群写入QPS(Count/Second)
可选。以实际测试结果作为参考。
FullGc次数(个)
可选。当数值不为0时,服务异常。
Exception次数(个)
可选。当数值不为0时,服务异常。
快照状态
可选。当数值为-1或0时,服务正常;为2时,服务异常。
单击确定。
报警配置成功后,当配置的事件发生时,指定的报警通知人就可以通过配置的通知方式接收到报警通知,例如通过钉钉群接收报警通知。
配置磁盘报警示例
您可以通过云监控配置磁盘水位报警,及时获取实例节点的磁盘使用率报警信息,提前处理相关问题。
您可以参见配置云监控报警,配置磁盘报警。对应报警规则配置示例如下。
参数 | 示例 |
规则名称 | 设置为磁盘水位报警。 |
指标类型 | 选择单指标。 |
监控指标 | 选择 。 |
阈值及报警级别 |
|
监控图表预览 | 监控指标的监控图表预览效果。 |