配置集群报警

阿里云Elasticsearch支持监控实例,以及自定义报警阈值和接收报警信息。为避免出现集群状态不正常、节点磁盘使用率过高等问题影响Elasticsearch服务,强烈建议您配置监控报警,实时监控集群状态、节点磁盘使用率等信息,及时查收报警通知,提前做好防御措施。本文介绍如何为Elasticsearch实例配置报警,包括一键报警和云监控报警。

开启一键报警

阿里云Elasticsearch的一键报警功能由云监控提供,默认处于关闭状态。开启一键报警功能后系统会创建集群状态异常、节点磁盘使用率异常(>75%)、节点JVM Heap异常(>85%)等报警规则,作用于阿里云账号下的全部Elasticsearch实例。

  1. 登录阿里云Elasticsearch控制台
  2. 在左侧导航栏,单击Elasticsearch实例
  3. Elasticsearch实例页面,单击一键报警

    image

  4. 一键报警对话框中,单击前往开启

    说明

    如果界面显示前往关闭,表明一键报警功能已开启,无需继续执行以下操作。

  5. 在云监控控制台中,打开Elasticsearch服务的一键报警开关。

  6. (可选)返回阿里云Elasticsearch控制台,查看是否已经成功开启一键报警功能。

    1. Elasticsearch实例页面,单击目标实例ID。

    2. 在左侧导航栏,选择监控与日志 > 集群监控

    3. 单击基础监控页签,在页面右上角,查看一键报警的状态。

      如果一键报警已开启状态,表示您已经成功开启了一键报警。一键告警为开启状态

配置云监控报警

  1. 进入云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则

  3. 单击创建报警规则

  4. 创建报警规则页面,设置报警规则。

    以添加节点磁盘使用率监控、集群状态监控、节点HeapMemory使用率监控为例,参数配置如下,未提及的参数保持默认,详细参数说明请参见创建报警规则

    参数

    说明

    产品

    选择Elasticsearch

    资源范围

    选择实例

    关联资源

    选择待监控的实例。

    规则描述

    单击添加规则,在添加规则描述面板,填写规则名称,并按照以下说明进行配置:

    • 指标类型:选择多指标

    • 报警级别:选择警告(Warn)

    • 指标类型:选择标准创建

    • 多指标报警描述

      • 选择clusterId > 集群状态的监控值>=2.0

      • 选择nodeName > Elasticsearch实例节点磁盘使用率的平均值>=75%

      • 选择nodeName > Elasticsearch实例节点HeapMemory使用率的平均值>=85%

    • 多指标关系:选择有一个满足就报警

    • 发出报警需要满足达到阈值的次数:选择连续3个周期

    您也可以通过配置单指标报警规则实现磁盘水位报警,详细信息请参见配置磁盘报警示例

    报警联系人组

    选择您已创建的报警联系人组。关于如何创建报警联系人组,请参见创建报警联系人或报警联系组

    说明

    您还可以打开高级设置,在报警回调中填写可通过公网访问的URL,云监控会将报警信息通过POST请求推送到该地址。目前仅支持HTTP协议,详细信息请参见使用阈值报警回调

    在配置阿里云Elasticsearch的报警规则时,您可以参考以下监控指标说明选择监控指标。更多监控指标信息,请参见指标含义与异常处理建议

    监控项

    说明

    集群状态

    必选。主要监控集群状态为正常(绿色)还是非正常(黄色或红色)。

    集群状态对应Green、Yellow、Red,转换成数值对应0.00、1.00、2.00,所以在配置集群状态报警指标时,需要按照对应数值的大小配置。

    节点磁盘使用率(%)

    必选。报警阈值控制在75%以下,不要超过80%。

    节点HeapMemory使用率(%)

    必选。报警阈值控制在85%以下,不要超过90%。

    节点CPU使用率(%)

    可选。报警阈值控制在95%以下,不要超过95%。

    节点Load_1m

    可选。以CPU核数的80%为参考值。

    集群查询QPS(Count/Second)

    可选。以实际测试结果作为参考。

    集群写入QPS(Count/Second)

    可选。以实际测试结果作为参考。

    FullGc次数(个)

    可选。当数值不为0时,服务异常。

    Exception次数(个)

    可选。当数值不为0时,服务异常。

    快照状态

    可选。当数值为-1或0时,服务正常;为2时,服务异常。

  5. 单击确定

    报警配置成功后,当配置的事件发生时,指定的报警通知人就可以通过配置的通知方式接收到报警通知,例如通过钉钉群接收报警通知

配置磁盘报警示例

您可以通过云监控配置磁盘水位报警,及时获取实例节点的磁盘使用率报警信息,提前处理相关问题。

您可以参见配置云监控报警,配置磁盘报警。对应报警规则配置示例如下。告警规则配置

参数

示例

规则名称

设置为磁盘水位报警。

指标类型

选择单指标

监控指标

选择nodeName > Elasticsearch实例节点磁盘使用率

阈值及报警级别

  • 紧急:连续3个周期的平均值 >= 80%

  • 警告:连续3个周期的平均值 >= 75%

  • 普通:连续3个周期的平均值 >= 70%

监控图表预览

监控指标的监控图表预览效果。