阿里云Elasticsearch支持监控实例,以及自定义报警阈值和接收报警信息。为避免出现集群状态不正常、节点磁盘使用率过高等问题影响Elasticsearch服务,强烈建议您配置监控报警,实时监控集群状态、节点磁盘使用率等信息,及时查收报警通知,提前做好防御措施。本文介绍如何为Elasticsearch实例配置报警,包括一键报警和云监控报警。

开启一键报警

阿里云Elasticsearch的一键报警功能由云监控提供,开启后会创建集群状态异常、节点磁盘使用率异常(>75%)、节点JVM Heap异常(>85%)等报警规则,作用于阿里云账号下的全部阿里云Elasticsearch实例。

  1. 登录阿里云Elasticsearch控制台
  2. 在左侧导航栏,单击Elasticsearch实例
  3. Elasticsearch实例页面,单击一键报警
  4. 一键报警对话框中,单击前往开启(默认为关闭状态)。
  5. 在云监控控制台中,打开Elasticsearch服务的一键报警开关。
  6. 返回阿里云Elasticsearch控制台,查看是否已经成功开启一键报警功能。
    1. Elasticsearch实例页面,单击目标实例ID。
    2. 在左侧导航栏,选择监控与日志 > 集群监控
    3. 单击基础监控页签,在页面右上角,查看一键报警的状态。
      如果一键报警已开启状态,表示您已经成功开启了一键报警。一键告警为开启状态

配置云监控报警

  1. 进入云监控控制台
    说明 您也可以在Elasticsearch实例列表中,单击目标实例ID。在基本信息页面,单击右上角的集群监控,进入云监控控制台。
  2. 在左侧导航栏,选择报警服务 > 报警规则
  3. 单击创建报警规则
  4. 创建报警规则页面,设置报警规则。
    以添加节点磁盘使用率监控、集群状态监控、节点HeapMemory使用率监控为例,参数配置如下,未提及的参数保持默认,详细参数说明请参见创建报警规则
    参数 说明
    产品 选择Elasticsearch
    资源范围 选择实例
    关联资源 选择待监控的实例。
    规则描述 单击添加规则,在添加规则描述面板,填写规则名称,并按照以下说明进行配置:
    • 指标类型:选择多指标
    • 报警级别:选择警告(Warn)
    • 指标类型:选择标准创建
    • 多指标报警描述
      • 选择clusterId > 集群状态的监控值>=2.0
      • 选择nodeName > Elasticsearch节点磁盘使用率的平均值>=75%
      • 选择nodeName > Elasticsearch节点HeapMemory使用率的平均值>=85%
    • 多指标关系:选择有一个满足就报警
    • 发出报警需要满足达到阈值的次数:选择连续3个周期
    报警联系人组 选择您已创建的报警联系人组。关于如何创建报警联系人组,请参见创建报警联系人或报警联系组
    说明 您还可以打开高级设置,在报警回调中填写可通过公网访问的URL,云监控会将报警信息通过POST请求推送到该地址。目前仅支持HTTP协议,详细信息请参见使用阈值报警回调
    在配置阿里云Elasticsearch的报警规则时,您可以参考以下说明监控指标说明选择指标报警描述,更多监控指标信息请参见查看集群监控
    监控项 说明
    集群状态 必选。主要监控集群状态为正常(绿色)还是非正常(黄色或红色)。

    集群状态对应Green、Yellow、Red,转换成数值对应0.0、1.0、2.0,所以在配置集群状态报警指标时,需要按照对应数值的大小配置。

    节点磁盘使用率(%) 必选。报警阈值控制在75%以下,不要超过80%。
    节点HeapMemory使用率(%) 必选。报警阈值控制在85%以下,不要超过90%。
    节点CPU使用率(%) 可选。报警阈值控制在95%以下,不要超过95%。
    节点Load_1m 可选。以CPU核数的80%为参考值。
    集群查询QPS(Count/Second) 可选。以实际测试结果作为参考。
    集群写入QPS(Count/Second) 可选。以实际测试结果作为参考。
    FullGc次数(个) 可选。当数值不为0时,服务异常。
    Exception次数(个) 可选。当数值不为0时,服务异常。
    快照状态 可选。当数值为-1或0时,服务正常;为2时,服务异常。
  5. 单击确定
    配置完成后,实例的监控信息将在实例正常运行后开始采集,并在集群监控页面展示监控信息。