监控指标与告警配置

阿里云Elasticsearch Serverless检索增强型应用(8.17版)的监控指标分为应用维度、索引维度和URL维度,这些指标将帮助您灵活应对实例的突发情况,实现对实例的监控与运维。本文为您介绍检索增强型应用(8.17版)支持的监控指标,以及如何基于相关指标配置报警规则,监测应用的使用状况,以便及时发现并处理异常。

背景信息

  • 检索增强型应用(8.17版)相关监控指标已同步至云监控。如需启用异常报警服务,请前往云监控配置报警规则。

  • 在检索增强型应用(8.17版)中,查询CU、写入CU的使用量由预留的固定CU配额控制。当开启弹性计算功能时,查询CU、写入CU的最高额度为固定CU配额的1.5倍。防止因资源超额触发限流,导致请求失败,您可配置资源超额限流报警,监控应用的资源使用情况。更多报警规则的配置操作,请参见配置报警规则

前提条件

创建检索增强型应用(8.17版)

配置资源超额限流报警

您可参考下文,快速配置超额限流报警规则,监控应用中查询CU、写入CU、存储等资源的使用情况。当连续5min,查询CU、写入CU或存储的实际使用量,超出应用支持的最大额度时,会产生报警。

说明

请提前创建应用分组,并将需要监控的检索增强型应用(8.17版)加入至该分组,便于后续通过该报警规则集中监控相关应用的资源使用情况。

  1. 进入应用详情页。

    1. 登录Elasticsearch Serverless控制台,在顶部菜单栏切换至目标地域。

    2. 单击左侧导航栏的应用管理

    3. 在应用管理页面,单击目标应用名称,进入应用详情页。

  2. 复制报警规则。

    在应用详情页,系统会基于您的固定CU配额,自动生成资源超额限流的报警规则配置,您可直接复制,用于后续创建报警规则使用。

    重要

    固定CU配额不同,生成的报警规则中的阈值配置存在差异。若更改了固定CU配额,请刷新应用详情页,重新单击告警规则,复制新的报警规则使用。

    image

    当固定CU配额为2CU,报警规则示例如下。

    {
        "HostAvailabilityTemplate": [],
        "Description": "监测查询CU、写入CU、存储等资源消耗,避免超额限流",
        "SystemEventTemplates": [],
        "AlertTemplatesJson": {
            "elasticsearch_serverless": [
                {
                    "displayName": "查询CU用量超额告警",
                    "category": "elasticsearch_serverless",
                    "namespace": "acs_elasticsearch",
                    "metricName": "AppReadCU",
                    "period": 60,
                    "selector": {},
                    "escalations": {},
                    "noDataPolicy": "KEEP_LAST_STATE",
                    "composite": {
                        "rawExpression": "@AppReadCU[60].$Average>@AppQuotaCU[60].$Average*1.5",
                        "level": "WARN",
                        "times": 5
                    }
                },
                {
                    "displayName": "写入CU用量超额告警",
                    "category": "elasticsearch_serverless",
                    "namespace": "acs_elasticsearch",
                    "metricName": "AppWriteCU",
                    "period": 60,
                    "selector": {},
                    "escalations": {},
                    "noDataPolicy": "KEEP_LAST_STATE",
                    "composite": {
                        "rawExpression": "@AppWriteCU[60].$Average>@AppQuotaCU[60].$Average*1.5",
                        "level": "WARN",
                        "times": 5
                    }
                },
                {
                    "displayName": "应用存储用量超额告警",
                    "category": "elasticsearch_serverless",
                    "namespace": "acs_elasticsearch",
                    "metricName": "AppStorageBytes",
                    "period": 60,
                    "selector": {},
                    "escalations": {},
                    "noDataPolicy": "KEEP_LAST_STATE",
                    "composite": {
                        "rawExpression": "@AppStorageBytes[60].$Average>80",
                        "level": "WARN",
                        "times": 5
                    }
                }
            ]
        },
        "Namespace": "acs_custom",
        "ProcessMonitorTemplates": [],
        "Name": "监测应用是否出现连续5min超额限流"
    }

    相关说明如下:

    • 查询CU用量超额告警:通过监控AppReadCU指标实现。当平均每分钟的读操作CU使用量,超过固定CU配额的1.5倍,且连续5分钟(即连续超额5次),则触发告警。

    • 写入CU用量超额告警:通过监控AppWriteCU指标实现。当平均每分钟的写操作CU使用量,超过固定CU配额的1.5倍,且连续5分钟(即连续超额5次),则触发告警。

    • 应用存储用量超额告警:通过监控AppStorageBytes指标实现。当平均每分钟的存储使用量,超过应用支持的最大存储量,且连续5分钟(即连续超额5次),则触发告警。

  3. 创建报警模板。

    1. 计费配额区域,单击云监控,进入报警模板页面。

    2. 按下图步骤,将复制的规则内容导入模板,生成报警模板。image

      说明

      导入模板限制如下:

      • 最大支持64K,超出该长度将导入失败。

      • 若存在同名模板,将导入失败,请修改规则内容中的模板名称(即Name字段)。

  4. 使用报警模板监控应用资源。

    模板生成后,您可按照界面指引将该模板应用到相应分组中,集中监测分组中检索增强型应用(8.17版)的资源使用情况。

配置报警规则

  1. 进入报警规则页面。

    1. 登录云监控控制台

    2. 在左侧导航栏单击报警服务 > 报警规则,进入报警规则页面。

  2. 单击+创建报警规则,创建报警规则。

  3. 配置规则信息。

    创建报警规则对话框,产品选择Elasticsearch Serverless,并按照下图指引配置规则信息。

    说明

    下图仅示例检索增强型应用(8.17版)的相关配置,其他通用配置请参考创建报警规则按需自定义。

    image

监控指标

应用维度

用于监控整体资源使用(例如,查询CU、写入CU、存储)。

分类

Metric Name

中文名称

对应监控页指标

指标含义

指标单位

端到端查询指标

AppRequestQPS

应用请求QPS

应用请求QPS(次/s)

应用每秒的请求数,单位为次/s。

count/s

AppResponseTime

应用请求响应时间

应用请求响应时间

应用请求响应时间。

None

AppStatusCodeQps

应用响应状态QPS

应用响应状态QPS(次/s)

应用返回状态每秒的请求数,单位为次/s。

count/s

应用内指标

AppStorageBytes

应用存储用量

存储用量(不含副本)

应用内所有索引主分片存储大小。

None

AppPrimaryDocs

应用总文档数

总文档数(不含副本)

应用内所有索引主分片总文档数,单位为条。

None

AppIndexNum

应用总索引数

总索引数

应用内总索引数。

count

AppQueryQPS

应用内所有索引分片查询QPS

查询速率/查询QPS(次/s)

应用内所有索引分片的查询速率/查询QPS,单位为次/s。

count/s

AppWriteQPS

应用内所有索引(含副本)写入QPS

写入速率/写入QPS(次/s)

应用内所有索引(含副本)的每秒写入文档数/写入QPS,单位为次/s。

count/s

计量指标

AppReadCU

应用内每秒查询消耗CU

查询计算资源

应用内每秒查询消耗CU。

说明

存在限流机制,当查询CU超出配额时,系统将限制请求流量。建议设置监控告警以及时发现并处理此类情况。

None

AppWriteCU

应用内每秒写入消耗CU

写入计算资源

应用内每秒写入消耗CU。

说明

存在限流机制,当写入CU超出配额时,系统将限制请求流量。建议设置监控告警以及时发现并处理此类情况。

None

AppForceMergeCU

应用内自动数据整理消耗CU

写入计算资源(时序应用自动数据整理消耗CU)

应用内自动数据整理消耗CU。

None

AppCUUsage

应用CU用量

说明

已按照查询与写入CU分别统计。

应用CU用量。

None

AppMeasureCU

应用计量CU

CU用量

应用内查询CU与写入CU的总消耗量。

None

AppQuotaCU

应用配额CU

对应应用详情页的固定CU配额

应用的固定CU配额。

说明

检索增强型应用(8.17版)对应的是Quota值,检索通用型应用(7.10版)及日志分析型应用(7.10版)对应的是Mincu值。

None

ReadMeasureCU

应用读计量CU

查询计算资源

应用内查询操作的CU消耗量,即所有查询请求的资源消耗总和。

None

索引维度

用于分析具体索引的资源消耗。

分类

metric name

中文名称

对应监控页指标

指标含义

指标单位

检索场景/时序场景

IndexQueryQPS

索引查询QPS

分片查询速率/查询QPS(次/s)

应用内每个索引查询QPS。

None

IndexWriteQPS

索引写入QPS

写入文档数速率/QPS(次/s)

应用内每个索引写入QPS。

None

IndexStorageBytes

索引存储用量

单个索引总存储用量

应用内每个索引主分片存储大小。

None

IndexPrimaryDocs

索引总文档数

单个索引的总文档数(不含副本),单位为条。

应用内每个索引主分片总文档数。

None

URI维度

用于监控API接口的响应性能。

分类

metric name

中文名称

对应监控页指标

指标含义

指标单位

URI维度

UriRequestQPS

URI请求QPS

URI请求QPS(次/s)

URI每秒的请求数。

count/s

UriResponseTime

URI请求响应时间

URI请求响应时间

URI请求响应时间。

None

UriStatusCodeQps

URI响应状态QPS

URI响应状态QPS (次/s)

URI返回状态每秒请求数。

count/s