快速入门

当您使用阿里云Elasticsearch时,系统会为您自动开通高级监控报警服务,并将您账号下的存量和新购Elasticsearch实例接入监控报警服务。本文为您介绍如何查看与配置可视化监控,以及如何配置日志报警规则和指标报警规则。

背景信息

高级监控报警服务能够为您所有地域下的Elasticsearch集群提供全维度指标和日志监控分析服务。您可以在平台为您提供的Grafana中查看集群、节点、索引和机器资源等维度的可视化监控数据,进行集群的异常日志分析,并可以根据业务需求自定义监控大屏和报警规则。关于高级监控报警的更多信息,请参见高级监控报警概述

前提条件

  • 已在支持高级监控报警服务的地域下创建阿里云Elasticsearch实例:

    • 目前高级监控报警服务支持的地域包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、北京金融云、美国东部、美国西部、日本、印度尼西亚、中国香港,具体以控制台为准。

    • 创建实例的具体操作,请参见创建阿里云Elasticsearch实例

  • 熟悉Grafana监控大屏的使用方法。详细信息,请参见Grafana Dashboard

使用限制

操作流程

  1. 步骤一:查看和配置可视化监控

  2. (可选)步骤二:配置日志报警规则

  3. (可选)步骤三:配置指标报警规则

操作视频

步骤一:查看和配置可视化监控

  1. 登录阿里云Elasticsearch控制台
  2. 在左侧导航栏,单击高级监控报警

    系统默认将您账号下的存量和新购Elasticsearch实例全部接入监控报警服务。

  3. 首次使用监控大盘需要进行应用授权。

    • 如果您是阿里云账号,同时选中以下三项授权,单击授权,即可完成emon_grafana应用授权。

      选项

      说明

      获取登录用户的基本信息(默认授权域,不可移除)

      系统默认已经选中。从当前阿里云账号获取登录用户的基本信息,例如令牌过期时间戳、令牌主体、令牌接收者以及颁发者等信息。

      阿里云颁发的唯一用户标志符

      需要手动选中。获取当前阿里云账号的UID,以避免多个RAM用户重复授权。

      用户的名称等个人信息

      需要手动选中。获取当前云账号(可以是阿里云账号,也可以是RAM用户)登录用户名的相关信息,例如用户的显示名称、登录名称,授权之后用户能看到当前登录的用户账号名称。

    • 如果您是RAM用户,等待阿里云账号完成首次登录授权后,您可以正常使用高级监控报警功能。或者进行手动授权:

      1. 阿里云账号给您的RAM用户授权,授权策略内容如下。<yourAccountId>需要替换为您的RAM用户身份ID。具体操作,请参见通过脚本编辑模式创建自定义权限策略

        {
          "Version": "1",
          "Statement": [
            {
              "Effect": "Allow",
              "Action": ims:*,
              "Resource": acs:ims::<yourAccountId>:application/*,
            }
          ]
        }
      2. 使用RAM用户进行监控大盘授权,策略内容如下。具体操作,请参见通过脚本编辑模式创建自定义权限策略

        {
          "Version": "1",
          "Statement": [
            {
              "Effect": "Allow",
              "Action": [
              "cms:DescribeActiveMetricRuleList", 
              "cms:ListAlarm", 
              "cms:QueryMetricList", 
              "cms:QueryMetricLast" ],
              "Resource": "*"
            }
          ]
        }
        • cms:DescribeActiveMetricRuleList:授予调用云监控emon_grafana的权限,如果不添加该权限,页面会出现报错提示。

        • "cms:ListAlarm", "cms:QueryMetricList", "cms:QueryMetricLast":授予查看默认基础监控页面的权限,如果不添加这几个权限,将无法查看默认基础监控页面。

    说明

    如果您的授权出现问题,请通过重新授权进行处理。

  4. 高级监控报警页面,查看默认监控。

    1. 在左侧导航栏,选择监控可视化 > 指标监控,查看已接入实例的指标监控数据。

      指标监控的详细信息,请参见基础指标引擎指标

    2. 在左侧导航栏,选择监控可视化 > 日志监控,查看已接入实例的日志监控数据。

      日志监控的详细信息,请参见日志监控

  5. 高级监控报警页面的左侧导航栏,选择监控可视化 > 自定义监控,配置并查看自定义监控。

    具体操作步骤,请参见配置自定义监控大屏

(可选)步骤二:配置日志报警规则

如果您需要通过监控日志进行报警通知,请执行以下操作:

  1. 高级监控报警页面的左侧导航栏中,选择监控可视化 > 日志监控

  2. 默认日志指标页签右侧,单击配置日志报警

    配置日志报警

  3. 参考系统为您提供的报警模板,配置日志报警规则或自由定制日志报警规则。

    详细操作步骤,请参见日志报警

(可选)步骤三:配置指标报警规则

如果您需要通过监控指标进行报警通知,请在高级监控报警页面的左侧导航栏中,执行以下操作:

  1. 选择报警模块 > 报警概览,在概览页页面,查看所有报警组的通知记录和报警事件。

    详细信息,请参见查看报警通知记录和事件

  2. 选择报警模块 > 报警组列表,创建报警组并添加报警规则。

    具体操作,请参见创建报警组配置报警规则

    查看单个报警组的通知记录和报警事件。详细信息,请参见查看通知记录查看报警事件

  3. 选择报警模块 > 联系人管理,添加指标报警通知人或联系人组。

    具体操作,请参见新增联系人新增联系人组

常见问题

Q:同一时段内监控同一实例,为什么高级监控和Kibana监控的数据不一致?

A:阿里云Elasticsearch的高级监控是内部自研监控,在使用时会和其他监控服务的数据存在差异,具体如下:

  • 采样周期差异性:采集周期和Kibana或第三方监控存在差异,采集到的数据不同,因此会存在差异。

  • 查询算法差异性:例如,高级监控和Kibana监控采集数据时都会受集群稳定性的影响,高级监控QPS指标会因集群的抖动会出现监控突增、负值或无监控等状况,而Kibana监控可能显示为空。

    说明

    如果高级监控提供的指标比Kibana监控多,在实际使用时,建议将高级监控和Kibana监控结合起来分析集群监控详情。

  • 采集接口差异性:Kibana监控指标依赖于Elasticsearch API,而高级监控部分节点级别的指标(例如CPU使用率、load_1m、磁盘使用率等),调用的是阿里云Elasticsearch底层系统接口,因此监控中除了Elasticsearch进程外还包含了系统级别资源的占用情况。