查看AnalyticDB for MySQL监控

通过云原生数据仓库 AnalyticDB MySQL 版控制台,可以查看集群过去一个月内指定时间段的集群性能(CPU使用率、磁盘IO使用率等)与资源的监控指标,以便您掌握集群的性能和运行状况,排查并解决问题。

注意事项

仅支持查看过去一个月内的监控信息,每次查看的指定时间段最长为2天。

操作步骤

  1. 登录云原生数据仓库AnalyticDB MySQL控制台,在左上角选择集群所在地域。在左侧导航栏,单击集群列表。在集群列表上方,选择产品系列,然后单击目标集群ID。

  2. 进入监控信息页面。

    • 数仓版集群:在左侧导航栏,单击监控报警

    • 企业版、基础版或湖仓版集群:在左侧导航栏,单击集群管理 > 监控报警

  3. 监控页签下,您可以单击标准视图自定义视图查看对应监控信息。

    • 标准视图默认展示常用的监控指标,单击更多指标,可查看所有监控指标。

    • 若您仅想关注部分指标,可以在标准视图更多指标中,选中关注的指标,取消选中不关注的指标,单击另存为,将这些指标添加到自定义视图

企业版基础版监控项说明

健康状态监控项

监控项

监控指标

集群接入节点状态

AnalyticDB for MySQL接入层由多个接入节点组成,主要负责协议层接入、SQL解析和优化、实时写入Sharding、数据调度和查询调度。

集群接入节点状态包括:

  • 健康:实例接入节点可用数。

  • 不可用:实例接入节点不可用数。

弹性计算节点组健康状态

弹性计算节点指集群在分时弹性或按需弹性时临时弹起的计算资源。计算节点即AnalyticDB for MySQL的计算引擎,具备分布式MPP和DAG融合执行能力,结合智能优化器,可支持高并发和复杂SQL混合负载。同时借助云原生基础设施,实现了弹性调度,可做到秒级、分钟级的资源扩展,实现了资源的有效利用。

弹性计算节点组健康状态包括

  • 健康:计算节点可用数。

  • 不可用:计算节点不可用数。

预留资源节点组健康状态

预留资源节点指的是集群中预先购买好的资源,通过变配或分时弹性可以改变预留资源的单节点规格和节点数。企业版基础版的预留资源节点为存算一体架构,同时运行计算和存储引擎。

预留资源节点组健康状态包括:

  • 健康:存储节点可用数。

  • 风险:存在风险的存储节点数。

  • 不可用:存储节点不可用数。

集群资源监控项说明

监控项

单位

监控指标

节点监控

CPU使用率

%

  • 预留资源节点CPU最大使用率

  • 预留资源节点CPU P95使用率

  • 预留资源节点CPU平均使用率

  • 弹性计算节点CPU最大使用率

  • 弹性计算节点CPU P95使用率

  • 弹性计算节点CPU平均使用率

Build任务数

数值

  • 平均Build任务数:所有存储节点中运行的Build任务数量的平均值。

  • 最大Build任务数:所有存储节点中运行的Build任务数量的最大值。

计算内存使用率

%

  • 预留资源节点最大计算内存使用率

  • 预留资源节点P95计算内存使用率

  • 预留资源节点平均计算内存使用率

  • 弹性计算节点最大计算内存使用率

  • 弹性计算节点P95计算内存使用率

  • 弹性计算节点平均计算内存使用率

节点不可用数

数值

  • 预留资源节点掉线数

  • 弹性计算节点掉线数

表读取结果数据量

数值

  • 表最大读取结果数据量

  • 表平均读取结果数据量

接入节点CPU使用率

%

  • 接入节点CPU最大使用率

  • 接入节点CPU P95使用率

  • 接入节点CPU平均使用率

磁盘IO吞吐

MB

  • 预留资源节点磁盘最大读吞吐量

  • 预留资源节点磁盘P95读吞吐量

  • 预留资源节点磁盘平均读吞吐量

  • 预留资源节点磁盘最大写吞吐量

  • 预留资源节点磁盘P95写吞吐量

  • 预留资源节点磁盘平均写吞吐量

磁盘IOPS

数值

  • 预留资源节点磁盘最大读次数

  • 预留资源节点磁盘P95读次数

  • 预留资源节点磁盘平均读次数

  • 预留资源节点磁盘最大写次数

  • 预留资源节点磁盘P95写次数

  • 预留资源节点磁盘平均写次数

磁盘IO使用率

%

  • 预留资源节点磁盘最大IO使用率

  • 预留资源节点磁盘P95 IO使用率

  • 预留资源节点磁盘平均IO使用率

磁盘IO等待时间

毫秒(ms)

  • 预留资源节点磁盘最大IO等待时间

  • 预留资源节点磁盘P95 IO等待时间

  • 预留资源节点磁盘平均IO等待时间

数据量监控

磁盘使用率

%

  • 平均磁盘使用率

  • 最大磁盘使用率

磁盘使用量

GB

  • 冷数据量

  • 热数据量

  • 最大节点热数据量

  • 平均节点热数据量

负载监控

集群连接数

数值

成功建立连接的数量。

查询失败率

%

查询的失败率。

  • 若您选择的查询时间是24小时以内的某个时间段,计算方法为:查询失败率=(一分钟内的SQL失败数/一分钟内的SQL总数)*100%

  • 若您选择的查询时间是24小时以外的某个时间段,计算方法为:查询失败率=(五分钟内的SQL失败数/五分钟内的SQL总数)*100%

查询QPS

数值

  • QPS

  • ETL_QPS

查询响应时间

毫秒(ms)

  • 平均查询响应时间

  • 最大查询响应时间

查询等待时间

毫秒(ms)

  • 查询平均等待时长

  • 查询最大等待时长

写入TPS

数值

监控集群的写入TPS。

写入响应时间

毫秒(ms)

  • 平均写入响应时间

  • 最大写入响应时间

写入吞吐量

MB

监控集群的平均写入吞吐量。

更新TPS

数值

监控集群的更新TPS。

更新响应时间

毫秒(ms)

  • 平均更新响应时间

  • 最大更新响应时间

删除TPS

数值

监控删除的写入TPS。

删除响应时间

毫秒(ms)

  • 平均删除响应时间

  • 最大删除响应时间

LOAD_TPS

数值

监控集群的LOAD_TPS。

资源组监控项说明

监控项

单位

监控指标

CPU使用率

%

监控资源组的CPU平均使用率。

查询QPS

数值

监控资源组的查询QPS。

查询响应时间

毫秒(ms)

监控资源组下查询的平均响应时间。

查询等待时间

毫秒(ms)

监控资源组下查询的平均等待总耗时。

(Xihe)运行中SQL数量

数值

监控资源组下正在运行的SQL数量。

排队的SQL数量

数值

监控资源组下排队的SQL数量。

湖仓版数仓版监控项说明

健康状态监控项说明

重要
  • 仅3.1.6及以上版本的集群支持查看健康状态信息。

    • 查看湖仓版集群的内核版本,请执行SELECT adb_version();。如需升级内核版本,请联系技术支持。

    • 查看和升级数仓版集群的内核版本,请参见查看和升级版本

  • 当任一健康状态为风险或不可用时,请联系技术支持。

监控项

监控指标

集群接入节点状态

AnalyticDB for MySQL接入层由多个实例接入节点组成,主要负责协议层接入、SQL解析和优化、实时写入Sharding、数据调度和查询调度。

实例接入节点状态包含:

  • 健康:实例接入节点可用数。

  • 不可用:实例接入节点不可用数。

计算节点组健康状态

计算节点组即AnalyticDB for MySQL的计算引擎,具备分布式MPP和DAG融合执行能力,结合智能优化器,可支持高并发和复杂SQL混合负载。同时借助云原生基础设施,计算节点实现了弹性调度,可根据业务需求做到分钟级甚至秒级扩展,实现了资源的有效利用。

计算节点组健康状态包含:

  • 健康:计算节点可用数。

  • 不可用:计算节点不可用数。

存储节点组健康状态

存储节点组即AnalyticDB for MySQL的存储引擎,基于Raft协议实现的分布式实时强一致高可用存储引擎,通过数据分片和Multi-Raft实现并行存储,利用分层存储实现冷热分离降低成本,通过行列存储和智能索引达到极高性能。

存储节点组健康状态包含:

  • 健康:存储节点可用数。

  • 风险:存在风险的存储节点数。

  • 不可用:存储节点不可用数。

集群资源监控项说明

监控项

单位

监控指标

节点监控

CPU使用率

%

  • 计算节点CPU最大使用率

  • 计算节点CPU P95使用率

  • 计算节点CPU平均使用率

  • 存储节点CPU最大使用率

  • 存储节点CPU P95使用率

  • 存储节点CPU平均使用率

说明

数仓版预留模式C32规格变配为弹性模式后,CPU平均使用率会增大,详情请参见常见问题

Build任务数

数值

  • 平均Build任务数:所有存储节点中运行的Build任务数量的平均值。

  • 最大Build任务数:所有存储节点中运行的Build任务数量的最大值。

计算内存使用率

%

  • 最大计算内存使用率

  • P95计算内存使用率

  • 平均计算内存使用率

节点不可用数监控

数值

  • 存储节点掉线数

  • 计算节点掉线数

表读取结果数据量

MB

  • 表最大读取结果数据量

  • 表平均读取结果数据量

接入节点CPU使用率

%

  • 接入节点CPU最大使用率

  • 接入节点CPU P95使用率

  • 接入节点CPU平均使用率

磁盘IO吞吐

MB

  • 存储节点磁盘最大读吞吐量

  • 存储节点磁盘P95读吞吐量

  • 存储节点磁盘平均读吞吐量

  • 存储节点磁盘最大写吞吐量

  • 存储节点磁盘P95写吞吐量

  • 存储节点磁盘平均写吞吐量

磁盘IOPS

数值

  • 存储节点磁盘最大读次数

  • 存储节点磁盘P95读次数

  • 存储节点磁盘平均读次数

  • 存储节点磁盘最大写次数

  • 存储节点磁盘P95写次数

  • 存储节点磁盘平均写次数

磁盘IO使用率

%

  • 存储节点磁盘最大IO使用率

  • 存储节点磁盘P95 IO使用率

  • 存储节点磁盘平均IO使用率

磁盘IO等待时间

毫秒(ms)

  • 存储节点磁盘最大IO等待时间

  • 存储节点磁盘P95 IO等待时间

  • 存储节点磁盘平均IO等待时间

数据量监控

磁盘使用率

%

  • 平均磁盘使用率

  • 最大磁盘使用率

磁盘使用量

GB

  • 冷数据量

    说明

    数仓版预留模式不支持数据冷热分离,因此没有该指标。

  • 热数据量

  • 最大节点热数据量

  • 平均节点热数据量

负载监控

集群连接数

数值

成功建立连接的数量。

查询失败率

%

查询的失败率。

  • 若您选择的查询时间是24小时以内的某个时间段,计算方法为:查询失败率=(一分钟内的SQL失败数/一分钟内的SQL总数)*100%

  • 若您选择的查询时间是24小时以外的某个时间段,计算方法为:查询失败率=(五分钟内的SQL失败数/五分钟内的SQL总数)*100%

查询QPS

数值

  • QPS

  • ETL_QPS

查询响应时间

毫秒(ms)

  • 平均查询响应时间

  • 最大查询响应时间

查询等待时间

毫秒(ms)

  • 查询平均等待时长

  • 查询最大等待时长

写入TPS

数值

监控集群的写入TPS。

写入响应时间

毫秒(ms)

  • 平均写入响应时间

  • 最大写入响应时间

写入吞吐量

MB

监控集群的平均写入吞吐量。

更新TPS

数值

监控集群的更新TPS。

更新响应时间

毫秒(ms)

  • 平均更新响应时间

  • 最大更新响应时间

删除TPS

数值

监控集群的删除TPS。

删除响应时间

毫秒(ms)

  • 平均删除响应时间

  • 最大删除响应时间

LOAD_TPS

数值

监控集群的LOAD_TPS。

资源组监控项说明

湖仓版

监控项

单位

监控指标

CPU使用率

%

监控资源组的CPU平均使用率。

查询QPS

数值

监控资源组的查询QPS。

查询响应时间

毫秒(ms)

监控资源组下查询的平均响应时间。

查询等待时间

毫秒(ms)

监控资源组下查询的平均等待总耗时。

(Xihe)运行中SQL数量

数值

监控资源组下正在运行的SQL数量。

排队的SQL数量

数值

监控资源组下排队的SQL数量。

数仓版

重要

仅同时满足如下条件的数仓版集群才支持查看资源组监控信息:

  • 集群系列需为弹性模式

  • 集群规格需为32核或以上。

监控项

单位

监控指标

CPU使用率

%

监控资源组的CPU平均使用率。

查询响应时间

毫秒(ms)

监控资源组下查询的平均响应时间。

查询QPS

数值

监控资源组的查询QPS。

查询等待时间

毫秒(ms)

监控资源组下查询的平均等待总耗时。

实际弹出数

数值

监控资源组分时弹性计划中实际生效的节点数(即执行扩容计划时实际增加的节点数)。

计划弹出数

数值

监控资源组分时弹性计划中需要增加的节点数。

如何新增资源组弹性计划,请参见创建资源弹性计划

总节点数

数值

监控资源组拥有的总节点数,总节点数=基础节点数+实际生效的分时弹性节点数。

基础节点数

数值

监控资源组中的基础节点数。

常见问题

  • Q:为什么预留模式跨规格变配为弹性模式后,CPU平均使用率会增大?

    A:预留模式C32规格变配为弹性模式,单个节点会降低到8核,Build任务默认占用3核,此时会导致CPU平均使用率增大。CPU平均使用率增大但未影响业务时,您无需关注;若已影响业务的正常运行,请进行升配操作或提交工单联系技术支持。关于Build任务的详细信息,请参见BUILD

  • Q:为什么普通索引主键索引监控指标偏大?

    A:原因如下:

    • 创建索引、主键索引的列数量偏多。

    • 索引列中某些值长度较长,单个列的长度较长(例如:长字符串等)。

    • 某些索引列的值个数(The Number of Distinct Values)偏多,且值都不相同,导致索引压缩率低。例如:某索引列为A,值为A1、A2、A3、A4,所有值都不相同,数据很难被压缩,导致索引压缩率低。

    • 主键中某些值长度较长或多个列构成了复合主键。

  • Q:为什么在监控页面发现有较长时间的RT(响应时间)产生,但在诊断与优化页面查询不到对应的耗时SQL?

    A:查询的返回结果数据量大,导致结果集缓存耗时长,而诊断与优化页面的总耗时=排队耗时+执行计划耗时+执行耗时,不包括结果集缓存耗时。建议您在SQL审计页面查看对应的耗时SQL。

相关文档及API

相关文档

调优集群性能

相关API

API

说明

DescribeDBClusterHealthStatus

查看目标企业版、基础版及湖仓版集群的健康状态。

DescribeDBClusterPerformance

查看目标企业版、基础版及湖仓版集群的性能数据。

DescribeComputeResourceUsage

查看目标企业版、基础版及湖仓版集群的资源组监控信息。

DescribeDBClusterPerformance

查看目标数仓版集群的查询和写入监控信息。

DescribeDBClusterResourcePoolPerformance

查看目标数仓版集群的资源组监控信息。