阿里云Elasticsearch支持监控实例,以及自定义报警阈值和接收报警信息。为避免出现集群状态不正常、节点磁盘使用率过高等问题影响Elasticsearch服务,强烈建议您配置监控报警,实时监控集群状态、节点磁盘使用率等信息,及时查收报警通知,提前做好防御措施。本文介绍如何为Elasticsearch实例配置报警,包括一键报警和云监控报警。

开启一键报警

阿里云Elasticsearch的一键报警功能由云监控提供,开启后会创建集群状态异常、节点磁盘使用率异常(>75%)、节点JVM Heap异常(>85%)等报警规则,作用于阿里云账号下的全部阿里云Elasticsearch实例。

  1. 登录阿里云Elasticsearch控制台
  2. 在左侧导航栏,单击Elasticsearch实例
  3. 在实例列表中,单击一键报警
  4. 一键报警对话框中,单击前往开启(默认为关闭状态)。
    开启ES一键报警
  5. 在云监控控制台中,打开Elasticsearch服务的一键报警开关。
    云监控控制台开启一键报警
  6. 返回阿里云Elasticsearch控制台,查看是否已经成功开启一键报警功能。
    1. 在实例列表中,单击目标实例ID。
    2. 在左侧导航栏,单击集群监控
    3. 集群告警区域,查看一键报警的状态。
      如果一键报警已开启状态,表示您已经成功开启了一键报警。一键告警为开启状态

配置云监控报警

  1. 进入云监控控制台
    说明 您也可以在Elasticsearch实例列表中,单击目标实例ID。在基本信息页面,单击右上角的集群监控,进入云监控控制台。
  2. 在左侧导航栏,选择报警服务 > 报警规则
  3. 单击创建报警规则
  4. 创建报警规则页面,设置报警规则。
    以添加节点磁盘使用率监控、集群状态监控、节点HeapMemory使用率监控为例,添加方式如下。
    图 1. 关联资源
    关联资源
    图 2. 设置报警规则
    设置报警规则
    您可以按照以下说明,配置阿里云Elasticsearch的监控报警项。监控指标的更多信息,请参见查看集群监控
    监控项 说明
    集群状态 必选。主要监控集群状态为正常(绿色)还是非正常(黄色或红色)。

    集群状态对应Green、Yellow、Red,转换成数值对应0.0、1.0、2.0,所以在配置集群状态报警指标时,需要按照对应数值的大小配置。

    节点磁盘使用率(%) 必选。报警阈值控制在75%以下,不要超过80%。
    节点HeapMemory使用率(%) 必选。报警阈值控制在85%以下,不要超过90%。
    节点CPU使用率(%) 可选。报警阈值控制在95%以下,不要超过95%。
    节点Load_1m 可选。以CPU核数的80%为参考值。
    集群查询QPS(Count/Second) 可选。以实际测试结果作为参考。
    集群写入QPS(Count/Second) 可选。以实际测试结果作为参考。
    FullGc次数(个) 可选。当数值不为0时,服务异常。
    Exception次数(个) 可选。当数值不为0时,服务异常。
    快照状态 可选。当数值为-1或0时,服务正常;为2时,服务异常。
    说明 通道沉默周期指同一个指标在一定时间范围内,只会触发一次报警。其他参数说明,请参见创建阈值报警规则
  5. 配置告警通知方式,选择云账号报警联系人
    如果您还没有报警联系组,可单击快速创建联系人组创建。快速创建联系人组
    说明 您可以在报警回调中填写可通过公网访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
  6. 单击确认
    配置完成后,实例的监控信息将在实例正常运行后开始采集,并在集群监控页面展示监控信息。