监控指标与告警配置

阿里云Elasticsearch Serverless检索增强型应用(8.17版)的监控指标分为应用维度、索引维度和URL维度,这些指标将帮助您灵活应对实例的突发情况,实现对实例的监控与运维。本文为您介绍检索增强型应用(8.17版)支持的监控指标,以及如何基于相关指标配置报警规则,监测应用的使用状况,以便及时发现并处理异常。

背景信息

  • 检索增强型应用(8.17版)相关监控指标已同步至云监控。如需启用异常报警服务,请前往云监控配置报警规则。

  • 在检索增强型应用(8.17版)中,查询CU、写入CU的使用量由预留的固定CU配额控制。当开启弹性计算功能时,查询CU、写入CU的最高额度为固定CU配额的1.5倍。防止因资源超额触发限流,导致请求失败,您可配置资源超额限流报警,监控应用的资源使用情况。更多报警规则的配置操作,请参见配置报警规则

前提条件

创建检索增强型应用(8.17版)

配置资源超额限流报警

您可参考下文,快速配置超额限流报警规则,监控应用中查询CU、写入CU、存储等资源的使用情况。当连续5min,查询CU、写入CU或存储的实际使用量,超出应用支持的最大额度时,会产生报警。

说明

请提前创建应用分组,并将需要监控的检索增强型应用(8.17版)加入至该分组,便于后续通过该报警规则集中监控相关应用的资源使用情况。

  1. 进入应用详情页。

    1. 登录Elasticsearch Serverless控制台,在顶部菜单栏切换至目标地域。

    2. 单击左侧导航栏的应用管理

    3. 在应用管理页面,单击目标应用名称,进入应用详情页。

  2. 复制报警规则。

    在应用详情页,系统会基于您的固定CU配额,自动生成资源超额限流的报警规则配置,您可直接复制,用于后续创建报警规则使用。

    重要

    固定CU配额不同,生成的报警规则中的阈值配置存在差异。若更改了固定CU配额,请刷新应用详情页,重新单击告警规则,复制新的报警规则使用。

    image

    当固定CU配额为2CU,报警规则示例如下。

    {
        "HostAvailabilityTemplate": [],
        "Description": "监测查询CU、写入CU、存储等资源消耗,避免超额限流",
        "SystemEventTemplates": [],
        "AlertTemplatesJson": {
            "elasticsearch_serverless": [
                {
                    "displayName": "查询CU用量超额告警",
                    "category": "elasticsearch_serverless",
                    "namespace": "acs_elasticsearch",
                    "metricName": "AppReadCU",
                    "period": 60,
                    "selector": {},
                    "escalations": {},
                    "noDataPolicy": "KEEP_LAST_STATE",
                    "composite": {
                        "rawExpression": "@AppReadCU[60].$Average>@AppQuotaCU[60].$Average*1.5",
                        "level": "WARN",
                        "times": 5
                    }
                },
                {
                    "displayName": "写入CU用量超额告警",
                    "category": "elasticsearch_serverless",
                    "namespace": "acs_elasticsearch",
                    "metricName": "AppWriteCU",
                    "period": 60,
                    "selector": {},
                    "escalations": {},
                    "noDataPolicy": "KEEP_LAST_STATE",
                    "composite": {
                        "rawExpression": "@AppWriteCU[60].$Average>@AppQuotaCU[60].$Average*1.5",
                        "level": "WARN",
                        "times": 5
                    }
                },
                {
                    "displayName": "应用存储用量超额告警",
                    "category": "elasticsearch_serverless",
                    "namespace": "acs_elasticsearch",
                    "metricName": "AppStorageBytes",
                    "period": 60,
                    "selector": {},
                    "escalations": {},
                    "noDataPolicy": "KEEP_LAST_STATE",
                    "composite": {
                        "rawExpression": "@AppStorageBytes[60].$Average>80",
                        "level": "WARN",
                        "times": 5
                    }
                }
            ]
        },
        "Namespace": "acs_custom",
        "ProcessMonitorTemplates": [],
        "Name": "监测应用是否出现连续5min超额限流"
    }

    相关说明如下:

    • 查询CU用量超额告警:通过监控AppReadCU指标实现。当平均每分钟的读操作CU使用量,超过固定CU配额的1.5倍,且连续5分钟(即连续超额5次),则触发告警。

    • 写入CU用量超额告警:通过监控AppWriteCU指标实现。当平均每分钟的写操作CU使用量,超过固定CU配额的1.5倍,且连续5分钟(即连续超额5次),则触发告警。

    • 应用存储用量超额告警:通过监控AppStorageBytes指标实现。当平均每分钟的存储使用量,超过应用支持的最大存储量,且连续5分钟(即连续超额5次),则触发告警。

  3. 创建报警模板。

    1. 计费配额区域,单击云监控,进入报警模板页面。

    2. 按下图步骤,将复制的规则内容导入模板,生成报警模板。image

      说明

      导入模板限制如下:

      • 最大支持64K,超出该长度将导入失败。

      • 若存在同名模板,将导入失败,请修改规则内容中的模板名称(即Name字段)。

  4. 使用报警模板监控应用资源。

    模板生成后,您可按照界面指引将该模板应用到相应分组中,集中监测分组中检索增强型应用(8.17版)的资源使用情况。

配置报警规则

  1. 进入报警规则页面。

    1. 登录云监控控制台

    2. 在左侧导航栏单击报警服务 > 报警规则,进入报警规则页面。

  2. 单击+创建报警规则,创建报警规则。

  3. 配置规则信息。

    创建报警规则对话框,产品选择Elasticsearch Serverless,并按照下图指引配置规则信息。

    说明

    下图仅示例检索增强型应用(8.17版)的相关配置,其他通用配置请参考创建报警规则按需自定义。

    image

监控指标

应用维度

用于监控整体资源使用(例如,查询CU、写入CU、存储)。

分类

Metric Name

中文名称

对应监控页指标

指标含义

指标单位

端到端查询指标

AppRequestQPS

应用请求QPS

应用请求QPS(次/s)

应用每秒的请求数,单位为次/s。

count/s

AppResponseTime

应用请求响应时间

应用请求响应时间

应用请求响应时间。

None

AppStatusCodeQps

应用响应状态QPS

应用响应状态QPS(次/s)

应用返回状态每秒的请求数,单位为次/s。

count/s

应用内指标

AppStorageBytes

应用存储用量

存储用量(不含副本)

应用内所有索引主分片存储大小。

None

AppPrimaryDocs

应用总文档数

总文档数(不含副本)

应用内所有索引主分片总文档数,单位为条。

None

AppIndexNum

应用总索引数

总索引数

应用内总索引数。

count

AppQueryQPS

应用内所有索引分片查询QPS

查询速率/查询QPS(次/s)

应用内所有索引分片的查询速率/查询QPS,单位为次/s。

count/s

AppWriteQPS

应用内所有索引(含副本)写入QPS

写入速率/写入QPS(次/s)

应用内所有索引(含副本)的每秒写入文档数/写入QPS,单位为次/s。

count/s

计量指标

AppReadCU

应用内每秒查询消耗CU

查询计算资源

应用内每秒查询消耗CU。

说明

存在限流机制,当查询CU超出配额时,系统将限制请求流量。建议设置监控告警以及时发现并处理此类情况。

None

AppWriteCU

应用内每秒写入消耗CU

写入计算资源

应用内每秒写入消耗CU。

说明

存在限流机制,当写入CU超出配额时,系统将限制请求流量。建议设置监控告警以及时发现并处理此类情况。

None

AppWriteBandwidth

应用内写入带宽速率

应用内写入带宽速率(bit/s)

应用内每秒写入的带宽。

bit/s

AppForceMergeCU

应用内自动数据整理消耗CU

写入计算资源(时序应用自动数据整理消耗CU)

应用内自动数据整理消耗CU。

None

AppCUUsage

应用CU用量

说明

已按照查询与写入CU分别统计。

应用CU用量。

None

AppMeasureCU

应用计量CU

CU用量

应用内查询CU与写入CU的总消耗量。

None

AppQuotaCU

应用配额CU

对应应用详情页的固定CU配额

应用的固定CU配额。

说明

检索增强型应用(8.17版)对应的是Quota值,检索通用型应用(7.10版)及日志分析型应用(7.10版)对应的是Mincu值。

None

ReadMeasureCU

应用读计量CU

查询计算资源

应用内查询操作的CU消耗量,即所有查询请求的资源消耗总和。

None

索引维度

用于分析具体索引的资源消耗。

分类

metric name

中文名称

对应监控页指标

指标含义

指标单位

检索场景/时序场景

IndexQueryQPS

索引查询QPS

分片查询速率/查询QPS(次/s)

应用内每个索引查询QPS。

None

IndexWriteQPS

索引写入QPS

写入文档数速率/QPS(次/s)

应用内每个索引写入QPS。

None

IndexStorageBytes

索引存储用量

单个索引总存储用量

应用内每个索引主分片存储大小。

None

IndexPrimaryDocs

索引总文档数

单个索引的总文档数(不含副本),单位为条。

应用内每个索引主分片总文档数。

None

URI维度

用于监控API接口的响应性能。

分类

metric name

中文名称

对应监控页指标

指标含义

指标单位

URI维度

UriRequestQPS

URI请求QPS

URI请求QPS(次/s)

URI每秒的请求数。

count/s

UriResponseTime

URI请求响应时间

URI请求响应时间

URI请求响应时间。

None

UriStatusCodeQps

URI响应状态QPS

URI响应状态QPS (次/s)

URI返回状态每秒请求数。

count/s