阿里云Elasticsearch(简称ES)支持对实例进行监控,并支持自定义报警阈值以及通过短信接收报警。为避免出现集群状态不正常、节点磁盘使用率过高等问题影响阿里云ES服务,强烈建议您配置监控报警,实时监控集群状态、节点磁盘使用率等信息,及时查收报警短信,提前做好防御措施。

背景信息

阿里云ES支持以下监控报警项。
监控项 说明
集群状态 必选。主要监控集群状态为正常(绿色)还是非正常(黄色或红色)。
节点磁盘使用率(%) 必选。报警阀值控制在75%以下,不要超过80%。
节点HeapMemory使用率(%) 必选。报警阀值控制在85%以下,不要超过90%。
节点CPU使用率(%) 可选。报警阀值控制在95%以下,不要超过95%。
节点load_1m 可选。以CPU核数的80%为参考值。
集群查询QPS(Count/Second) 可选。以实际测试结果作为参考。
集群写入QPS(Count/Second) 可选。以实际测试结果作为参考。
说明 阿里云ES实例的监控报警默认为开启状态,因此您可以在实例的监控报警页面查看历史监控数据,目前只保留一个月内的监控信息。通过创建报警规则,可对此实例配置监控报警规则。

操作步骤

  1. 进入云监控报警控制台。
    您可以通过两种方式进入控制台:
    • 阿里云ES控制台
      1. 登录阿里云Elasticsearch控制台
      2. 在顶部菜单栏处,选择地域。
      3. 单击目标实例ID/名称链接。
      4. 基本信息页面,单击右上角的集群监控
    • 云监控控制台
      1. 进入阿里云ES的云监控控制台
      2. 选择实例所在区域。
      3. 实例列表页签,单击实例ID,进入对应阿里云ES实例的云监控报警控制台。
  2. 单击右上角的创建报警规则
  3. 创建报警规则页面,设置报警规则
    以添加节点磁盘使用率监控、集群状态监控、节点HeapMemory使用率监控为例,添加方式如下所示。
    图 1. 关联资源
    关联资源
    图 2. 设置报警规则
    设置报警规则
    • 集群的状态对应GreenYellowRed,转换成数值对应0.01.02.0,所以在配置集群状态报警指标时,需要按照对应数值的大小进行配置。
    • 通道沉默时间是指同一个指标在一定时间范围内,只会触发一次报警。
      说明 其他参数说明请参见报警规则参数说明
  4. 配置告警通知方式,选择云账号报警联系人
    如果您还没有报警联系组,请单击快速创建联系人组,进行创建。快速创建联系人组
    说明 您可以在报警回调中填写可通过公网访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
  5. 单击确认
    配置完成后,阿里云ES实例的监控信息将在实例正常运行后5分钟内开始采集,并提供监控数据展示。