当您使用阿里云Elasticsearch时,系统会为您自动开通高级监控报警服务,并将您账号下的存量和新购Elasticsearch实例接入监控报警服务。本文为您介绍如何查看与配置可视化监控,以及如何配置日志报警规则和指标报警规则。

背景信息

高级监控报警服务能够为您所有地域下的Elasticsearch集群提供全维度指标和日志监控分析服务。您可以在平台为您提供的Grafana中查看集群、节点、索引和机器资源等维度的可视化监控数据,进行集群的异常日志分析,并可以根据业务需求自定义监控大屏和报警规则。关于高级监控报警的更多信息,请参见高级监控报警概述

前提条件

  • 已在支持高级监控报警服务的地域下创建阿里云Elasticsearch实例:
    • 目前高级监控报警服务支持的地域包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、美国东部、美国西部、日本、印度、印度尼西亚、中国香港,具体以控制台为准。
    • 创建实例的具体操作,请参见创建阿里云Elasticsearch实例
  • 熟悉Grafana监控大屏的使用方法。详细信息,请参见Grafana Dashboard

使用限制

  • 高级监控报警功能提供了基础指标、引擎指标和日志数据的监控和报警。阿里云Elasticsearch所有版本都支持对实例的基础指标和日志数据监控,仅内核版本大于1.2.0的6.7.0或7.10.0版本支持引擎指标监控。如果内核版本低于1.2.0,可升级内核版本。具体操作,请参见升级版本
  • 高级监控报警服务存在地域限制,支持的地域仅包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、美国东部、美国西部、日本、印度、印度尼西亚、中国香港,具体以控制台为准。

操作流程

  1. 步骤一:查看和配置可视化监控
  2. (可选)步骤二:配置日志报警规则
  3. (可选)步骤三:配置指标报警规则

操作视频

步骤一:查看和配置可视化监控

  1. 登录阿里云Elasticsearch控制台
  2. 在左侧导航栏,单击高级监控报警
    系统默认将您账号下的存量和新购Elasticsearch实例全部接入监控报警服务。
  3. 高级监控报警页面,查看默认监控。
    1. 可选:应用授权。
      如果您是首次使用监控大盘,则需要进行应用授权。为保证您能正常使用高级监控报警功能,请确保获以下三项授权同时选中。首次使用需授权
      选项 说明
      获取登录用户的基本信息(默认授权域,不可移除) 系统默认已经选中。从当前阿里云账号获取登录用户的基本信息,例如令牌过期时间戳、令牌主体、令牌接收者以及颁发者等信息。
      阿里云颁发的唯一用户标志符 需要手动选中。获取当前阿里云账号的UID,以避免多个RAM用户重复授权。
      用户的名称等个人信息 需要手动选中。获取当前云账号(可以是阿里云账号,也可以是RAM用户)登录用户名的相关信息,例如用户的显示名称、登录名称,授权之后用户能看到当前登录的用户账号名称。
      说明
      • 如果您使用的是阿里云账号,则按照以上说明同时勾选三项授权即可登录;如果您使用的是RAM用户身份,那么您需要由阿里云账号授权,或者由阿里云账号完成首次的登录授权后,您才可以正常登录。如果由阿里云账号授权,您需要参见为RAM用户授权,将策略内容中的ActionResource替换为以下信息:
        Action:ims:*
        Resource:acs:ims::<yourAccountId>:application/*

        其中,<yourAccountId>需要替换成您自己的RAM用户身份ID。

      • 使用RAM角色单点登录阿里云控制台时,不支持访问高级监控报警服务。如果需要访问,可使用RAM用户单点登录阿里云控制台
      • 如果您的授权出现问题,请通过重新授权进行处理。
    2. 在左侧导航栏,选择监控可视化 > 指标监控,查看已接入实例的指标监控数据。
      指标监控的详细信息,请参见基础指标引擎指标
    3. 在左侧导航栏,选择监控可视化 > 日志监控,查看已接入实例的日志监控数据。
      日志监控的详细信息,请参见日志监控
  4. 高级监控报警页面的左侧导航栏,选择监控可视化 > 自定义监控,配置并查看自定义监控。
    具体操作步骤,请参见配置自定义监控大屏

(可选)步骤二:配置日志报警规则

如果您需要通过监控日志进行报警通知,请执行以下操作:

  1. 高级监控报警页面的左侧导航栏中,选择监控可视化 > 日志监控
  2. 默认日志指标页签右侧,单击配置日志报警
    配置日志报警
  3. 参考系统为您提供的报警模板,配置日志报警规则或自由定制日志报警规则。
    详细操作步骤,请参见日志报警

(可选)步骤三:配置指标报警规则

如果您需要通过监控指标进行报警通知,请在高级监控报警页面的左侧导航栏中,执行以下操作:

  1. 选择指标报警模块 > 报警组列表,创建报警组并添加报警规则。
    具体操作步骤,请参见创建报警组配置报警规则
  2. 选择指标报警模块 > 联系人管理,添加指标报警通知人或联系人组。
    具体操作步骤,请参见新增联系人新增联系人组
  3. 查看指标报警通知记录和报警事件。

常见问题

Q:同一时段内监控同一实例,为什么高级监控和Kibana监控的数据不一致?

A:阿里云Elasticsearch的高级监控是内部自研监控,在使用时会和其他监控服务的数据存在差异,具体如下:
  • 采样周期差异性:采集周期和Kibana或第三方监控存在差异,采集到的数据不同,因此会存在差异。
  • 查询算法差异性:例如,高级监控和Kibana监控采集数据时都会受集群稳定性的影响,高级监控QPS指标会因集群的抖动会出现监控突增、负值或无监控等状况,而Kibana监控可能显示为空。
    说明 如果高级监控提供的指标比Kibana监控多,在实际使用时,建议将高级监控和Kibana监控结合起来分析集群监控详情。
  • 采集接口差异性:Kibana监控指标依赖于Elasticsearch API,而高级监控部分节点级别的指标(例如CPU使用率、load_1m、磁盘使用率等),调用的是阿里云Elasticsearch底层系统接口,因此监控中除了Elasticsearch进程外还包含了系统级别资源的占用情况。