配置集群报警

更新时间:
复制为 MD 格式

Elasticsearch集群运行过程中,集群状态异常、节点磁盘使用率过高等问题会直接影响服务可用性。通过配置监控报警,可以实时感知集群异常并及时处理。Elasticsearch支持一键报警和云监控自定义报警两种方式。

开启一键报警

一键报警由云监控提供,默认关闭。开启后,系统自动创建以下报警规则,作用于当前账号下的全部Elasticsearch实例:

  • 集群状态异常

  • 节点磁盘使用率异常(>75%)

  • 节点JVM Heap异常(>85%)

  1. 登录阿里云Elasticsearch控制台

  2. 在左侧导航栏,单击Elasticsearch实例

  3. Elasticsearch实例页面,单击一键报警

  4. 一键报警对话框中,单击前往开启

    说明

    如果界面显示前往关闭,表明一键报警功能已开启,无需继续执行以下操作。

  5. 在云监控控制台中,打开Elasticsearch服务的一键报警开关。

  6. (可选)返回阿里云Elasticsearch控制台,验证一键报警是否已开启。

    1. Elasticsearch实例页面,单击目标实例ID。

    2. 在左侧导航栏,选择 监控与日志 > 集群监控

    3. 单击基础监控页签,在页面右上角查看一键报警的状态。

      如果一键报警已开启状态,表示一键报警已生效。

配置云监控报警

一键报警提供的规则为固定模板,如果需要自定义监控指标、报警阈值和通知方式,可通过云监控创建自定义报警规则。

  1. 进入云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则

  3. 单击创建报警规则

  4. 创建报警规则页面,设置报警规则。

    以下示例配置集群状态、节点磁盘使用率、节点堆内存使用率三个组合指标的报警规则。未提及的参数保持默认,详细参数说明请参见创建报警规则

    参数

    说明

    产品

    选择 Elasticsearch

    资源范围

    选择 实例

    关联资源

    添加待监控的实例。

    规则描述

    单击 添加规则 > 组合指标 ,在 设置规则描述 面板中配置以下参数:

    • 指标类型:选择组合指标

    • 报警级别:选择警告(Warn)

    • 多指标报警描述

      说明

      本文示例此处配置三个监控指标,单击添加指标即可新增指标描述。

      • 指标一:选择集群ID > 集群状态,并配置监控值>=2。

      • 指标二:选择nodeName > 节点磁盘使用率,并配置平均值>=75%。

      • 指标三:选择nodeName > 节点堆内存使用率_ES业务,并配置平均值>=85%。

    • 多指标关系:选择有一个满足条件就报警(||)

    • 报警阈值触发次数:选择连续3个周期(1周期=1分钟)

    您也可以通过配置单指标报警规则实现磁盘水位报警,详细信息请参见配置磁盘报警示例

    报警联系人组

    选择已创建的报警联系人组。如未创建,请参见创建报警联系人或报警联系人组

    规则描述的详细配置如下:

    参数

    配置说明

    指标类型

    选择 组合指标

    报警级别

    选择 警告(Warn)

    多指标报警描述

    单击 添加指标 新增指标描述,配置以下三个监控指标:

    • 指标一:选择 集群ID > 集群状态 ,配置监控值>=2。

    • 指标二:选择 nodeName > 节点磁盘使用率 ,配置平均值>=75%。

    • 指标三:选择 nodeName > 节点堆内存使用率_ES业务 ,配置平均值>=85%。

    多指标关系

    选择 有一个满足条件就报警(||)

    报警阈值触发次数

    选择 连续3个周期(1周期=1分钟)

    如需配置单指标报警规则(例如磁盘水位报警),请参见配置磁盘报警示例

    打开高级设置,可在报警回调中填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址。目前仅支持HTTP协议,详细信息请参见使用阈值报警回调

    配置报警规则时,可参考以下监控指标选择需要监控的项目。更多信息,请参见指标含义与异常处理建议

    监控项

    必要性

    建议阈值

    说明

    集群状态

    必选

    监控值>=2

    集群状态Green、Yellow、Red分别对应数值0.00、1.00、2.00。{#234fde02deqpn}配置报警指标时按数值大小设置。

    节点磁盘使用率(%)

    必选

    平均值>=75%

    不超过80%。

    节点HeapMemory使用率(%)

    必选

    平均值>=85%

    不超过90%。在规则描述中显示为 节点堆内存使用率_ES业务

    节点CPU使用率(%)

    可选

    平均值>=95%

    -

    节点Load_1m

    可选

    CPU核数的80%为参考值

    -

    集群查询QPS(Count/Second)

    可选

    以实际测试结果为参考

    -

    集群写入QPS(Count/Second)

    可选

    以实际测试结果为参考

    -

    FullGc次数(个)

    可选

    数值不为0时异常

    -

    Exception次数(个)

    可选

    数值不为0时异常

    -

    快照状态

    可选

    数值为2时异常

    数值为-10时正常。

  5. 单击确认

    报警规则创建后,当监控指标触发报警条件时,报警联系人组中的成员会收到报警通知。通知方式的配置请参见通过钉钉群接收报警通知

配置磁盘报警示例

磁盘水位报警是最常用的单指标报警场景。当节点磁盘使用率超过阈值时,需要及时扩容或清理数据,避免磁盘写满导致服务不可用。

按照配置云监控报警的步骤创建报警规则,在规则描述中选择添加规则 >简单指标 ,参数配置示例如下。

参数

示例

规则名称

磁盘水位报警

指标类型

选择简单指标

监控指标

选择nodeName > 节点磁盘使用率

阈值及报警级别

  • 紧急:连续3个周期的平均值 >= 80%

  • 警告:连续3个周期的平均值 >= 75%

  • 普通:连续3个周期的平均值 >= 70%

监控图表预览

监控指标的监控图表预览效果。