高级监控报警服务的指标监控功能提供基础指标和引擎指标等指标监控能力,方便您实时获取Elasticsearch集群侧和引擎侧指标数据,帮助您快速了解集群状况,更好地排查Elasticsearch集群引擎性能及稳定性问题。本文主要介绍如何通过指标监控功能获取监控数据。

前提条件

  • 已在支持高级监控报警服务的地域下创建阿里云Elasticsearch实例:
    • 目前高级监控报警服务支持的地域包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、北京金融云、美国东部、美国西部、日本、印度、印度尼西亚、中国香港,具体以控制台为准。
    • 创建实例的具体操作,请参见创建阿里云Elasticsearch实例
  • 熟悉Grafana监控大屏的使用方法。详细信息,请参见Grafana Dashboard

使用限制

高级监控报警功能提供了基础指标、引擎指标和日志数据的监控和报警。阿里云Elasticsearch所有版本都支持对实例的基础指标和日志数据监控,仅内核版本大于1.2.0的6.7.0或7.10.0版本支持引擎指标监控。如果内核版本低于1.2.0,可升级内核版本。具体操作,请参见升级版本

操作步骤

  1. 登录阿里云Elasticsearch控制台
  2. 在左侧导航栏,单击高级监控报警
    说明 高级监控报警服务默认展示您账号下所有地域接入的实例数据,与您在控制台选择的可用区无关。例如,您在控制台选择北京地域,进入高级监控报警页面后,仍可以看到杭州地域接入的实例数据。
  3. 高级监控报警页面,选择监控可视化 > 指标监控,即可看到所有接入实例的指标监控数据。

    高级监控报警服务在指标维度提供基础指标和引擎指标监控,两者主要区别在于支持的监控对象不同,详情请参见下表。

    指标维度说明
    基础指标偏向粗粒度的资源监控,帮助您一站式获取集群整体资源状况,支持cluster、index、index Resource、Node Network、Node Disk、Node JVM和Thread_pool相关监控项。
    引擎指标偏向细粒度的资源监控,帮助您快速获取多维度数据处理情况,支持search、bulk(shard)、时序写入Serverless、cache、refresh、merge、cluster state、segment replication和isolator相关监控项。
    说明
    • 高级监控报警服务中的Grafana监控大盘,使用方式与开源Grafana一致。更多信息,请参见Grafana documentation
    • 高级监控报警服务提供的所有默认监控大盘,均不支持任何修改。如需修改,您可通过配置自定义监控大屏定制更贴合业务需求的监控大盘。
    • 如果您需要获取更详细的指标监控项说明,请参见基础指标引擎指标
  4. 查看指定实例、节点或索引等的监控数据。
    1. 鼠标停留在监控窗口,按键盘Esc键,将跳出Grafana菜单页及过滤栏。
    2. 在过滤栏中,根据需求输入或选择对应信息,查看监控数据。
      图 1. 默认基础指标过滤项
      默认基础指标过滤项
      图 2. 默认引擎指标过滤项
      默认引擎指标过滤项
      过滤项说明
      source/datasource指标监控数据源,默认值为es-metric
      说明 下拉列表中的default源数据和es-metric源数据一致。
      instanceId通过实例ID过滤监控数据,默认*,表示无实例限制,即查看所有实例的监控数据。
      ip/node_ip通过集群节点IP过滤监控数据,默认*,表示无IP限制,即查看实例下所有节点的监控数据。
      index通过索引名过滤监控数据,默认*,表示无索引限制,即查看所有索引的监控数据。
      shardId通过shardId过滤监控数据,默认*,表示无shardId限制,即查看所有shard的监控数据。
      regionId通过地域过滤监控数据,默认ALL,表示无地域限制,即查看所有地域下的实例的监控数据。