当您使用阿里云Elasticsearch时,系统会为您自动开通高级监控报警服务,并将您账号下的存量和新购Elasticsearch实例接入监控报警服务。本文为您介绍如何查看与配置可视化监控,以及如何配置日志报警规则和指标报警规则。
背景信息
高级监控报警服务能够为您所有地域下的Elasticsearch集群提供全维度指标和日志监控分析服务。您可以在平台为您提供的Grafana中查看集群、节点、索引和机器资源等维度的可视化监控数据,进行集群的异常日志分析,并可以根据业务需求自定义监控大屏和报警规则。关于高级监控报警的更多信息,请参见高级监控报警概述。
前提条件
已在支持高级监控报警服务的地域下创建阿里云Elasticsearch实例:
目前高级监控报警服务支持的地域包括:杭州、北京、上海、深圳、青岛、张家口、成都、广州、乌兰察布、北京金融云、美国东部、美国西部、日本、印度尼西亚、中国香港,具体以控制台为准。
创建实例的具体操作,请参见创建阿里云Elasticsearch实例。
熟悉Grafana监控大屏的使用方法。详细信息,请参见Grafana Dashboard。
使用限制
高级监控报警功能提供了基础指标、引擎指标和日志数据的监控和报警。仅内核版本大于1.2.0的6.7.0或7.10.0版本支持引擎指标监控。升级内核版本,请参见升级版本。
使用RAM角色单点登录阿里云控制台时,不支持访问高级监控报警服务。如果需要访问,可使用RAM用户单点登录阿里云控制台。
操作流程
操作视频
步骤一:查看和配置可视化监控
- 登录阿里云Elasticsearch控制台。
在左侧导航栏,单击高级监控报警。
系统默认将您账号下的存量和新购Elasticsearch实例全部接入监控报警服务。
首次使用监控大盘需要进行应用授权。
如果您是阿里云账号,同时选中以下三项授权,单击授权,即可完成emon_grafana应用授权。
选项
说明
获取登录用户的基本信息(默认授权域,不可移除)
系统默认已经选中。从当前阿里云账号获取登录用户的基本信息,例如令牌过期时间戳、令牌主体、令牌接收者以及颁发者等信息。
阿里云颁发的唯一用户标志符
需要手动选中。获取当前阿里云账号的UID,以避免多个RAM用户重复授权。
用户的名称等个人信息
需要手动选中。获取当前云账号(可以是阿里云账号,也可以是RAM用户)登录用户名的相关信息,例如用户的显示名称、登录名称,授权之后用户能看到当前登录的用户账号名称。
如果您是RAM用户,等待阿里云账号完成首次登录授权后,您可以正常使用高级监控报警功能。或者进行手动授权:
阿里云账号给您的RAM用户授权,授权策略内容如下。
<yourAccountId>
需要替换为您的RAM用户身份ID。具体操作,请参见通过脚本编辑模式创建自定义权限策略。{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": ims:*, "Resource": acs:ims::<yourAccountId>:application/*, } ] }
使用RAM用户进行监控大盘授权,策略内容如下。具体操作,请参见通过脚本编辑模式创建自定义权限策略。
{ "Version": "1", "Statement": [ { "Effect": "Allow", "Action": [ "cms:DescribeActiveMetricRuleList", "cms:ListAlarm", "cms:QueryMetricList", "cms:QueryMetricLast" ], "Resource": "*" } ] }
cms:DescribeActiveMetricRuleList
:授予调用云监控emon_grafana的权限,如果不添加该权限,页面会出现报错提示。"cms:ListAlarm", "cms:QueryMetricList", "cms:QueryMetricLast"
:授予查看默认基础监控页面的权限,如果不添加这几个权限,将无法查看默认基础监控页面。
说明如果您的授权出现问题,请通过重新授权进行处理。
在高级监控报警页面,查看默认监控。
在左侧导航栏,选择 ,查看已接入实例的指标监控数据。
在左侧导航栏,选择 ,查看已接入实例的日志监控数据。
日志监控的详细信息,请参见日志监控。
在高级监控报警页面的左侧导航栏,选择 ,配置并查看自定义监控。
具体操作步骤,请参见配置自定义监控大屏。
(可选)步骤二:配置日志报警规则
如果您需要通过监控日志进行报警通知,请执行以下操作:
在高级监控报警页面的左侧导航栏中,选择 。
在默认日志指标页签右侧,单击配置日志报警。
参考系统为您提供的报警模板,配置日志报警规则或自由定制日志报警规则。
详细操作步骤,请参见日志报警。
(可选)步骤三:配置指标报警规则
如果您需要通过监控指标进行报警通知,请在高级监控报警页面的左侧导航栏中,执行以下操作:
选择
,在概览页页面,查看所有报警组的通知记录和报警事件。详细信息,请参见查看报警通知记录和事件。
选择 ,创建报警组并添加报警规则。
选择 ,添加指标报警通知人或联系人组。
常见问题
Q:同一时段内监控同一实例,为什么高级监控和Kibana监控的数据不一致?
A:阿里云Elasticsearch的高级监控是内部自研监控,在使用时会和其他监控服务的数据存在差异,具体如下:
采样周期差异性:采集周期和Kibana或第三方监控存在差异,采集到的数据不同,因此会存在差异。
查询算法差异性:例如,高级监控和Kibana监控采集数据时都会受集群稳定性的影响,高级监控QPS指标会因集群的抖动会出现监控突增、负值或无监控等状况,而Kibana监控可能显示为空。
说明如果高级监控提供的指标比Kibana监控多,在实际使用时,建议将高级监控和Kibana监控结合起来分析集群监控详情。
采集接口差异性:Kibana监控指标依赖于Elasticsearch API,而高级监控部分节点级别的指标(例如CPU使用率、load_1m、磁盘使用率等),调用的是阿里云Elasticsearch底层系统接口,因此监控中除了Elasticsearch进程外还包含了系统级别资源的占用情况。