监控项概览

更新时间:

本文详细列举了云原生数据仓库 AnalyticDB MySQL 版所有的监控指标的信息。

集群健康状态

企业版和基础版

监控项

监控指标

相关文档

集群接入节点状态

AnalyticDB for MySQL接入层由多个接入节点组成,主要负责协议层接入、SQL解析和优化、实时写入Sharding、数据调度和查询调度。

集群接入节点状态包括:

  • 健康:实例接入节点可用数。

  • 不可用:实例接入节点不可用数。

弹性计算节点健康状态

弹性计算节点指集群在分时弹性或按需弹性时临时弹起的计算资源,可做到秒级、分钟级的资源扩展,实现了资源的有效利用。

弹性计算节点健康状态包括:

  • 健康:计算节点可用数。

  • 不可用:计算节点不可用数。

预留资源节点健康状态

预留资源节点指的是集群中预先购买好的资源,通过变配或分时弹性可以改变预留资源的单节点规格和节点数。企业版基础版的预留资源节点为存算一体架构,同时运行计算和存储引擎。

预留资源节点组健康状态包括:

  • 健康:存储节点可用数。

  • 风险:存在风险的存储节点数。

  • 不可用:存储节点不可用数。

湖仓版和数仓版

监控项

监控指标

相关文档

集群接入节点状态

AnalyticDB for MySQL接入层由多个实例接入节点组成,主要负责协议层接入、SQL解析和优化、实时写入Sharding、数据调度和查询调度。

实例接入节点状态包含:

  • 健康:实例接入节点可用数。

  • 不可用:实例接入节点不可用数。

计算节点健康状态

计算节点即AnalyticDB for MySQL的计算引擎,具备分布式MPPDAG融合执行能力,结合智能优化器,可支持高并发和复杂SQL混合负载。同时借助云原生基础设施,计算节点实现了弹性调度,可根据业务需求做到分钟级甚至秒级扩展,实现了资源的有效利用。

计算节点组健康状态包含:

  • 健康:计算节点可用数。

  • 不可用:计算节点不可用数。

存储节点健康状态

存储节点即AnalyticDB for MySQL的存储引擎,基于Raft协议实现的分布式实时强一致高可用存储引擎,通过数据分片和Multi-Raft实现并行存储,利用分层存储实现冷热分离降低成本,通过行列存储和智能索引达到极高性能。

存储节点组健康状态包含:

  • 健康:存储节点可用数。

  • 风险:存在风险的存储节点数。

  • 不可用:存储节点不可用数。

集群性能监控

节点监控

企业版和基础版

监控项

监控项Key

监控指标

监控指标Value Name

单位

相关文档

CPU使用率

AnalyticDB_CPU

预留资源节点CPU最大使用率。

worker_max_cpu_used

%

预留资源节点CPU P95使用率。

worker_p95_cpu_used

预留资源节点CPU平均使用率。

worker_avg_cpu_used

弹性计算节点CPU最大使用率。

executor_max_cpu_used

弹性计算节点CPU P95使用率。

executor_p95_cpu_used

弹性计算节点CPU平均使用率。

executor_avg_cpu_used

Build任务数

AnalyticDB_BuildTaskCount

平均Build任务数。

说明

所有存储节点中运行的Build任务数量的平均值。

avg_build_task_count

最大Build任务数。

说明

所有存储节点中运行的Build任务数量的最大值。

max_build_task_count

计算内存使用率

AnalyticDB_ComputeMemoryUsedRatio

预留资源节点最大计算内存使用率。

max_worker_compute_memory_used_ratio

%

预留资源节点P95计算内存使用率。

p95_worker_compute_memory_used_ratio

预留资源节点平均计算内存使用率。

avg_worker_compute_memory_used_ratio

弹性计算节点最大计算内存使用率。

max_executor_compute_memory_used_ratio

弹性计算节点P95计算内存使用率。

p95_executor_compute_memory_used_ratio

弹性计算节点平均计算内存使用率。

avg_executor_compute_memory_used_ratio

节点不可用数

AnalyticDB_UnavailableNodeCount

预留资源节点掉线数。

worker_unavailable_node_count

弹性计算节点掉线数。

executor_unavailable_node_count

表读取结果数据量

AnalyticDB_Table_Read_Result_Size

表最大读取结果数据量。

table_max_read_result_size

MB

表平均读取结果数据量。

table_avg_read_result_size

接入节点CPU使用率

AnalyticDB_RC_CPU

接入节点CPU最大使用率。

rc_max_cpu_used

%

接入节点CPU P95使用率。

rc_p95_cpu_used

接入节点CPU平均使用率。

rc_controller_avg_cpu_used

磁盘IO吞吐

AnalyticDB_IO

预留资源节点磁盘最大读吞吐量。

worker_max_read_bytes_ratio

MB/s

预留资源节点磁盘P95读吞吐量。

worker_p95_read_bytes_ratio

预留资源节点磁盘平均读吞吐量。

worker_avg_read_bytes_ratio

预留资源节点磁盘最大写吞吐量。

worker_max_write_bytes_ratio

预留资源节点磁盘P95写吞吐量。

worker_p95_write_bytes_ratio

预留资源节点磁盘平均写吞吐量。

worker_avg_write_bytes_ratio

磁盘IOPS

AnalyticDB_IOPS

预留资源节点磁盘最大读次数。

worker_max_read_ratio

io/s

预留资源节点磁盘P95读次数。

worker_p95_read_ratio

预留资源节点磁盘平均读次数。

worker_avg_read_ratio

预留资源节点磁盘最大写次数。

worker_max_write_ratio

预留资源节点磁盘P95写次数。

worker_p95_write_ratio

预留资源节点磁盘平均写次数。

worker_avg_write_ratio

磁盘IO使用率

AnalyticDB_IO_UTIL

预留资源节点磁盘最大IO使用率。

worker_max_io_util

%

预留资源节点磁盘P95 IO使用率。

worker_p95_io_util

预留资源节点磁盘平均IO使用率。

worker_avg_io_util

磁盘IO等待时间

AnalyticDB_IO_WAIT

预留资源节点磁盘最大IO等待时间。

worker_max_io_await

ms

预留资源节点磁盘P95 IO等待时间。

worker_p95_io_await

预留资源节点磁盘平均IO等待时间。

worker_avg_io_await

接入节点内存使用率

AnalyticDB_RC_MemoryUsedRatio

接入节点最大内存使用率。

rc_max_memory_used_ratio

%

接入节点P95内存使用率。

rc_p95_memory_used_ratio

接入节点平均内存使用率。

rc_avg_memory_used_ratio

接入节点磁盘IO吞吐

AnalyticDB_RC_IO

接入节点最大读吞吐量。

rc_max_read_mebibytes

MB/s

接入节点P95读吞吐量。

rc_p95_read_mebibytes

接入节点平均读吞吐量。

rc_avg_read_mebibytes

接入节点最大写吞吐量。

rc_max_write_mebibytes

接入节点P95写吞吐量。

rc_p95_write_mebibytes

接入节点平均写吞吐量。

rc_avg_write_mebibytes

接入节点磁盘IOPS

AnalyticDB_RC_IOPS

接入节点最大读次数。

rc_max_read_iops

io/s

接入节点P95读次数。

rc_p95_read_iops

接入节点平均读次数。

rc_avg_read_iops

接入节点最大写次数。

rc_max_write_iops

接入节点P95写次数。

rc_p95_write_iops

接入节点平均写次数。

rc_avg_write_iops

湖仓版和数仓版

监控项

监控项Key

监控指标

监控指标Value Name

单位

相关文档

CPU使用率

说明

数仓版预留模式C32规格变配为弹性模式后,CPU平均使用率会增大,详情请参见常见问题

AnalyticDB_CPU

计算节点CPU最大使用率。

executor_max_cpu_used

%

计算节点CPU P95使用率。

executor_p95_cpu_used

计算节点CPU平均使用率。

executor_avg_cpu_used

存储节点CPU最大使用率。

worker_max_cpu_used

存储节点CPU P95使用率。

worker_p95_cpu_used

存储节点CPU平均使用率。

worker_avg_cpu_used

Build任务数

AnalyticDB_BuildTaskCount

平均Build任务数。

说明

所有存储节点中运行的Build任务数量的平均值。

avg_build_task_count

最大Build任务数。

说明

所有存储节点中运行的Build任务数量的最大值。

max_build_task_count

计算内存使用率

AnalyticDB_ComputeMemoryUsedRatio

最大计算内存使用率。

max_executor_compute_memory_used_ratio

%

P95计算内存使用率。

p95_executor_compute_memory_used_ratio

平均计算内存使用率。

avg_executor_compute_memory_used_ratio

节点不可用数监控

AnalyticDB_UnavailableNodeCount

存储节点掉线数。

worker_unavailable_node_count

计算节点掉线数。

executor_unavailable_node_count

表读取结果数据量

AnalyticDB_Table_Read_Result_Size

表最大读取结果数据量。

table_max_read_result_size

MB

表平均读取结果数据量。

table_avg_read_result_size

接入节点CPU使用率

AnalyticDB_RC_CPU

接入节点CPU最大使用率。

rc_max_cpu_used

%

接入节点CPU P95使用率。

rc_p95_cpu_used

接入节点CPU平均使用率。

rc_controller_avg_cpu_used

磁盘IO吞吐

AnalyticDB_IO

存储节点磁盘最大读吞吐量。

worker_max_read_bytes_ratio

MB/s

存储节点磁盘P95读吞吐量。

worker_p95_read_bytes_ratio

存储节点磁盘平均读吞吐量。

worker_avg_read_bytes_ratio

存储节点磁盘最大写吞吐量。

worker_max_write_bytes_ratio

存储节点磁盘P95写吞吐量。

worker_p95_write_bytes_ratio

存储节点磁盘平均写吞吐量。

worker_avg_write_bytes_ratio

磁盘IOPS

AnalyticDB_IOPS

存储节点磁盘最大读次数。

worker_max_read_ratio

io/s

存储节点磁盘P95读次数。

worker_p95_read_ratio

存储节点磁盘平均读次数。

worker_avg_read_ratio

存储节点磁盘最大写次数。

worker_max_write_ratio

存储节点磁盘P95写次数。

worker_p95_write_ratio

存储节点磁盘平均写次数。

worker_avg_write_ratio

磁盘IO使用率

AnalyticDB_IO_UTIL

存储节点磁盘最大IO使用率。

worker_max_io_util

%

存储节点磁盘P95 IO使用率。

worker_p95_io_util

存储节点磁盘平均IO使用率。

worker_avg_io_util

磁盘IO等待时间

AnalyticDB_IO_WAIT

存储节点磁盘最大IO等待时间。

worker_max_io_await

ms

存储节点磁盘P95 IO等待时间。

worker_p95_io_await

存储节点磁盘平均IO等待时间。

worker_avg_io_await

接入节点内存使用率

AnalyticDB_RC_MemoryUsedRatio

接入节点最大内存使用率。

rc_max_memory_used_ratio

%

接入节点P95内存使用率。

rc_p95_memory_used_ratio

接入节点平均内存使用率。

rc_avg_memory_used_ratio

接入节点磁盘IO吞吐

AnalyticDB_RC_IO

接入节点最大读吞吐量。

rc_max_read_mebibytes

MB/s

接入节点P95读吞吐量。

rc_p95_read_mebibytes

接入节点平均读吞吐量。

rc_avg_read_mebibytes

接入节点最大写吞吐量。

rc_max_write_mebibytes

接入节点P95写吞吐量。

rc_p95_write_mebibytes

接入节点平均写吞吐量。

rc_avg_write_mebibytes

接入节点磁盘IOPS

AnalyticDB_RC_IOPS

接入节点最大读次数。

rc_max_read_iops

io/s

接入节点P95读次数。

rc_p95_read_iops

接入节点平均读次数。

rc_avg_read_iops

接入节点最大写次数。

rc_max_write_iops

接入节点P95写次数。

rc_p95_write_iops

接入节点平均写次数。

rc_avg_write_iops

数据量监控

企业版和基础版

监控项

监控项Key

监控指标

监控指标Value Name

单位

相关文档

磁盘使用率

AnalyticDB_DiskUsedRatio

平均磁盘使用率。

disk_used_ratio

%

最大磁盘使用率。

worker_max_node_disk_used_ratio

磁盘使用量

AnalyticDB_DiskUsedSize

冷数据量。

cold_disk_used

Byte

热数据量。

hot_disk_used

最大节点热数据量。

user_used_disk_max

平均节点热数据量。

user_used_disk_avg

湖仓版和数仓版

监控项

监控项Key

监控指标

监控指标Value Name

单位

相关文档

磁盘使用率

AnalyticDB_DiskUsedRatio

平均磁盘使用率。

disk_used_ratio

%

最大磁盘使用率。

worker_max_node_disk_used_ratio

磁盘使用量

AnalyticDB_DiskUsedSize

冷数据量。

cold_disk_used

Byte

热数据量。

hot_disk_used

最大节点热数据量。

user_used_disk_max

平均节点热数据量。

user_used_disk_avg

查询负载监控

企业版和基础版

监控项

监控项Key

监控指标

监控指标Value Name

单位

相关文档

集群连接数

AnalyticDB_Connections

成功建立连接的数量。

connections

查询失败率1

AnalyticDB_QueryFailedRatio

查询的失败率。

query_failed_ratio

%

查询QPS

AnalyticDB_QPS

QPS。

qps

op/s

ETL_QPS。

etl_qps

查询响应时间

AnalyticDB_QueryRT

平均查询响应时间。

query_avg_rt

ms

最大查询响应时间。

query_max_rt

查询等待时间

AnalyticDB_QueryWaitTime

查询平均等待时长。

query_avg_wait_time

ms

查询最大等待时长。

query_max_wait_time

写入TPS

AnalyticDB_InsertTPS

集群的写入TPS。

insert_tps

op/s

写入响应时间

AnalyticDB_InsertRT

平均写入响应时间。

insert_avg_rt

ms

最大写入响应时间。

insert_max_rt

写入吞吐量

AnalyticDB_InsertBytes

集群的平均写入吞吐量。

insert_in_bytes

MB

更新TPS

AnalyticDB_UpdateTPS

集群的更新TPS。

update_tps

op/s

更新响应时间

AnalyticDB_UpdateRT

平均更新响应时间。

updateinto_avg_rt

ms

最大更新响应时间。

updateinto_max_rt

删除TPS

AnalyticDB_DeleteTPS

删除的写入TPS。

delete_tps

op/s

删除响应时间

AnalyticDB_DeleteRT

平均删除响应时间。

delete_avg_rt

ms

最大删除响应时间。

delete_max_rt

导入TPS

AnalyticDB_LoadTPS

集群的LOAD_TPS。

load_tps

op/s

湖仓版和数仓版

监控项

监控项Key

监控指标

监控指标Value Name

单位

相关文档

集群连接数

AnalyticDB_Connections

成功建立连接的数量。

connections

查询失败率1

AnalyticDB_QueryFailedRatio

查询的失败率。

query_failed_ratio

%

查询QPS

AnalyticDB_QPS

QPS。

qps

op/s

ETL_QPS。

etl_qps

查询响应时间

AnalyticDB_QueryRT

平均查询响应时间。

query_avg_rt

ms

最大查询响应时间。

query_max_rt

查询等待时间

AnalyticDB_QueryWaitTime

查询平均等待时长。

query_avg_wait_time

ms

查询最大等待时长。

query_max_wait_time

写入TPS

AnalyticDB_InsertTPS

集群的写入TPS。

insert_tps

op/s

写入响应时间

AnalyticDB_InsertRT

平均写入响应时间。

insert_avg_rt

ms

最大写入响应时间。

insert_max_rt

写入吞吐量

AnalyticDB_InsertBytes

集群的平均写入吞吐量。

insert_in_bytes

MB

更新TPS

AnalyticDB_UpdateTPS

集群的更新TPS。

update_tps

op/s

更新响应时间

AnalyticDB_UpdateRT

平均更新响应时间。

updateinto_avg_rt

ms

最大更新响应时间。

updateinto_max_rt

删除TPS

AnalyticDB_DeleteTPS

删除的写入TPS。

delete_tps

op/s

删除响应时间

AnalyticDB_DeleteRT

平均删除响应时间。

delete_avg_rt

ms

最大删除响应时间。

delete_max_rt

导入TPS

AnalyticDB_LoadTPS

集群的LOAD_TPS。

load_tps

op/s

说明

查询失败率1

  • 若您选择的查询时间是24小时以内的某个时间段,计算方法为:查询失败率=(一分钟内的SQL失败数/一分钟内的SQL总数)*100%

  • 若您选择的查询时间是24小时以外的某个时间段,计算方法为:查询失败率=(五分钟内的SQL失败数/五分钟内的SQL总数)*100%

资源组监控

企业版、基础版和湖仓版

监控项

监控项Key

监控指标

监控指标Value Name

单位

相关文档

CPU使用率

AnalyticDB_RP_CPU

监控资源组的CPU平均使用率。

AnalyticDB_RP_CPU

%

查询QPS

AnalyticDB_RP_QPS

监控资源组的查询QPS。

AnalyticDB_RP_QPS

op/s

查询响应时间

AnalyticDB_RP_RT

监控资源组下查询的平均响应时间。

AnalyticDB_RP_RT

ms

查询等待时间

AnalyticDB_RP_WaitTime

监控资源组下查询的平均等待总耗时。

AnalyticDB_RP_WaitTime

ms

(Xihe)运行中SQL数量

AnalyticDB_RP_RunningQueries_Count

监控资源组下正在运行的SQL数量。

AnalyticDB_RP_RunningQueries_Count

排队的SQL数量

AnalyticDB_RP_QueuedQueries_Count

监控资源组下排队的SQL数量。

AnalyticDB_RP_QueuedQueries_Count

计算资源使用情况

说明

湖仓版支持该指标。

总计算资源。

TotalAcuNumber

ACU

计算预留资源。

ReservedAcuNumber

存储资源使用情况

说明

湖仓版支持该指标。

总存储资源。

TotalAcuNumber

ACU

存储预留资源。

ReservedAcuNumber

资源使用情况

总计算资源。

TotalAcuNumber

ACU

预留资源。

ReservedAcuNumber

Interactive型资源组

计算最小资源。

ReservedAcuNumber

ACU

操作文档:查看资源组的计算资源用量

计算最大资源。

MaxAcuNumber

当前计算资源使用量。

CurrentAcuNumber

Job型资源组

计算最小资源。

ReservedAcuNumber

ACU

计算最大资源。

MaxAcuNumber

当前计算资源使用量。

CurrentAcuNumber

竞价实例资源使用量。

SpotAcuNumber

作业使用总ACU

作业使用ACU的平均值。

TotalAcuNumber

ACU

操作文档:查看作业的计算资源用量

预留ACU

在作业总共使用的ACU时中,预留ACU时的数量。

ReservedAcuNumber

ACU

弹性ACU

在作业总共使用的ACU时中,弹性ACU时的数量。

ElasticAcuNumber

ACU

数仓版

监控项

监控项Key

监控指标

监控指标Value Name

单位

相关文档

CPU使用率

AnalyticDB_RP_CPU

监控资源组的CPU平均使用率。

AnalyticDB_RP_CPU

%

查询QPS

AnalyticDB_RP_QPS

监控资源组的查询QPS。

AnalyticDB_RP_QPS

op/s

查询响应时间

AnalyticDB_RP_RT

监控资源组下查询的平均响应时间。

AnalyticDB_RP_RT

ms

查询等待时间

AnalyticDB_RP_WaitTime

监控资源组下查询的平均等待总耗时。

AnalyticDB_RP_WaitTime

ms

实际弹出数

AnalyticDB_RP_ActualNode

监控资源组分时弹性计划中实际生效的节点数(即执行扩容计划时实际增加的节点数)。

AnalyticDB_RP_ActualNode

计划弹出数

AnalyticDB_RP_PlanNode

监控资源组分时弹性计划中需要增加的节点数。

如何新增资源组弹性计划,请参见创建资源弹性计划

AnalyticDB_RP_PlanNode

总节点数

AnalyticDB_RP_TotalNode

监控资源组拥有的总节点数,总节点数=基础节点数+实际生效的分时弹性节点数。

AnalyticDB_RP_TotalNode

基础节点数

AnalyticDB_RP_OriginalNode

监控资源组中的基础节点数。

AnalyticDB_RP_OriginalNode

总查询数量

AnalyticDB_WLM_TotalQueries_Count

资源组中总的查询数量。

AnalyticDB_WLM_TotalQueries_Count

op/s

小查询数量

AnalyticDB_WLM_SQA_Queries_Count

资源组中小查询数量。

AnalyticDB_WLM_SQA_Queries_Count

op/s

小查询响应时间平均值

AnalyticDB_WLM_SQA_AvgRt_MS

资源组中小查询的平均响应时间

AnalyticDB_WLM_SQA_AvgRt_MS

ms

Spark监控

AnalyticDB for MySQL不支持在控制台直接查看Spark监控,需要跳转至云监控控制台查看。

监控项

监控指标

MetricName

单位

相关文档

Spark CPU 利用率(%)

Spark CPU利用率。

  • SparkCpuUtilizationEci

  • SparkCpuUtilizationShenlong

%

Spark 内存 利用率(%)

Spark内存使用率。

  • SparkMemoryUtilizationEci

  • SparkMemoryUtilizationShenlong

%

Execution 堆内内存使用量峰值(B)

Spark作业运行时,占用JVM堆内存的最大值。

SparkExecutorOnHeapExecutionMemoryBytes

Byte

Execution 堆外内存使用量峰值(B)

Spark作业运行时,除JVM堆内存外,额外使用内存的最大值。

SparkExecutorOffHeapExecutionMemoryBytes

Byte

Storage 堆内内存使用量峰值(B)

Spark存储数据(例如缓存的RDD)时,在JVM堆内存中占用的最大空间。

SparkExecutorOnHeapStorageMemoryBytes

Byte

Storage 堆外内存使用量峰值(B)

Spark存储数据(例如缓存的RDD)时,在JVM堆外内存中占用的最大空间。

SparkExecutorOffHeapStorageMemoryBytes

Byte

RDD Storage 磁盘使用量(B)

SparkRDD(弹性分布式数据集)占用的磁盘空间。

SparkExecutorDiskUsedBytes

Byte

Major GC 次数(count)

Spark作业运行时,JVM垃圾收集机制执行的老年代垃圾收集(Major GC)的次数。

SparkExecutorMajorGCCount

Minor GC 次数统计(count)

Spark作业运行时,JVM垃圾收集机制执行的年轻代垃圾收集(Minor GC)的次数。

SparkExecutorMinorGCCount

Spark GC 耗时(s)

SparkGC耗时。

SparkExecutorTotalGCTimeSeconds

s

Spark Shuffle 读数据量(B)

Spark Shuffle的读数据量。

SparkExecutorTotalShuffleReadBytes

Byte

Spark Shuffle 写数据量(B)

Spark Shuffle的写数据量。

SparkExecutorTotalShuffleWriteBytes

Byte