云监控指标说明

本文详细介绍了EMR Serverless StarRocks的云监控指标,涵盖了多个关键性能参数。

可用性

指标名称

类型

维度

描述

serverless_starrocks_node_info_alive_percent

瞬时值

-

BE/CN 节点存活率(Alive),反映节点健康状态。

serverless_starrocks_fe_node_starting_log

瞬时值

podName

捕获到 FE 进程启动日志,值为 1 表示该时间段检测到了进程启动的特征日志。

serverless_starrocks_be_node_starting_log

瞬时值

podName

捕获到 BE/CN 进程启动日志,值为 1 表示该时间段检测到了进程启动的特征日志。

serverless_starrocks_fe_up

瞬时值

podName

请求节点 HTTP 接口的结果,1 表示请求成功,0 表示请求失败,可用于表明 FE 节点状态。

serverless_starrocks_be_up

瞬时值

podName

请求节点 HTTP 接口的结果,1 表示请求成功,0 表示请求失败,可用于表明 BE/CN 节点状态。

资源使用情况

指标名称

类型

维度

描述

serverless_starrocks_fe_cpu_util

瞬时值

podName

FE 节点的 CPU 使用率。

serverless_starrocks_be_cpu_util

瞬时值

warehouseName

podName

BE 节点的 CPU 使用率。

serverless_starrocks_fe_jvm_heap_util

瞬时值

podName

FE JVM Heap 内存使用率。

serverless_starrocks_fe_mem_util

瞬时值

podName

FE 内存使用率。考虑到 JVM 特性,如需配置监控告警请使用serverless_starrocks_fe_jvm_heap_util指标。

serverless_starrocks_be_mem_util

瞬时值

warehouseName

podName

BE 内存使用率。

serverless_starrocks_be_jemalloc_allocated_bytes

瞬时值

warehouseName

podName

BE节点已分配的内存大小。单位:Byte。

serverless_starrocks_be_query_mem_bytes

瞬时值

warehouseName

podName

查询执行过程中使用的总内存。

serverless_starrocks_be_load_mem_bytes

瞬时值

warehouseName

podName

导入任务使用的内存总量。

serverless_starrocks_be_compaction_mem_bytes

瞬时值

warehouseName

podName

版本合并(Compaction)占用的内存。

serverless_starrocks_be_schema_change_mem_bytes

瞬时值

warehouseName

podName

Schema Change 任务使用的内存。

serverless_starrocks_be_column_pool_mem_bytes

瞬时值

warehouseName

podName

column pool 内存池,用于加速存储层数据读取的 Column Cache。

serverless_starrocks_be_storage_page_cache_mem_bytes

瞬时值

warehouseName

podName

BE 存储层 page 缓存。

serverless_starrocks_be_jit_cache_mem_bytes

瞬时值

warehouseName

podName

BE jit 编译函数的缓存。

serverless_starrocks_be_chunk_allocator_mem_bytes

瞬时值

warehouseName

podName

CPU per core 缓存,用于加速小块内存申请的 Cache。

serverless_starrocks_be_consistency_mem_bytes

瞬时值

warehouseName

podName

定期一致性校验使用的内存。

serverless_starrocks_be_datacache_mem_bytes

瞬时值

warehouseName

podName

缓存数据占用的内存。

serverless_starrocks_be_clone_mem_bytes

瞬时值

warehouseName

podName

Tablet Clone 任务使用的总内存。

serverless_starrocks_be_metadata_mem_bytes

瞬时值

warehouseName

podName

元数据占用的内存。

serverless_starrocks_be_disks_utilization

瞬时值

podName

BE节点磁盘容量使用率。

serverless_starrocks_be_max_disk_io_util_percent

瞬时值

warehouseName

podName

磁盘IO最大使用率。

serverless_starrocks_fe_connection_total

瞬时值

podName

FE节点的总连接数量。

serverless_starrocks_be_network_send_bytes

累计值

warehouseName

podName

device

网络发送的数据总量。单位:Byte。

serverless_starrocks_be_network_receive_bytes

累计值

warehouseName

podName

device

网络接收的数据总量。单位:Byte。

查询性能

指标名称

类型

维度

描述

serverless_starrocks_fe_query_latency_ms

瞬时值

podName

查询延迟的百分位统计(如 P75/P95/P99),通过 quantile 标签区分。单位:ms。

serverless_starrocks_fe_query_resource_group_latency

瞬时值

podName

name

type

资源组查询的延时统计信息。

serverless_starrocks_fe_qps

瞬时值

podName

每秒执行的Query数。

serverless_starrocks_fe_query_err_increase

瞬时值

podName

每分钟查询失败数。

serverless_starrocks_fe_slow_query_increase

瞬时值

podName

每分钟慢查询数统计。

serverless_starrocks_fe_query_total

累计值

podName

查询请求累计总数。

serverless_starrocks_fe_query_err

累计值

podName

错误请求的累计总数。

serverless_starrocks_fe_query_timeout

累计值

podName

查询超时统计的累计个数。

serverless_starrocks_fe_query_queue_pending

瞬时值

podName

当前正在队列中的查询数量。

serverless_starrocks_fe_query_queue_total_increase

瞬时值

podName

历史排队过的查询数量(包括正在运行的查询)。

serverless_starrocks_fe_query_queue_timeout_increase

瞬时值

podName

排队超时的查询总数量。

事务管理

指标名称

类型

维度

描述

serverless_starrocks_fe_txn_running

瞬时值

db

当前正在运行的事务数量。

物化视图(MV)

指标名称

类型

维度

描述

serverless_starrocks_fe_mv_inactive_state

瞬时值

dbName

mvId

mvName

物化视图的状态。有效值:0(active)和 1(inactive)。

serverless_starrocks_fe_mv_refresh_running_jobs

瞬时值

dbName

mvId

mvName

物化视图当前正在执行的刷新作业数量。

serverless_starrocks_fe_mv_refresh_total_failed_jobs_increase

瞬时值

dbName

mvName

MV 每分钟刷新失败任务数

serverless_starrocks_fe_mv_refresh_total_failed_jobs

瞬时值

dbName

mvName

执行失败的物化视图刷新作业的数量。

serverless_starrocks_fe_mv_refresh_pending_jobs

累计值

dbName

mvId

mvName

物化视图当前等待执行的刷新作业数量。

其他关键指标

指标名称

类型

维度

描述

serverless_starrocks_fe_job

瞬时值

podName

exportedJob

type

state

当前作业数。

serverless_starrocks_fe_meta_log_count

瞬时值

podName

FE 的 BDB 元数据 Log 个数。

serverless_starrocks_be_max_tablet_rowset_num

瞬时值

podName

BE 中 Tablet 的最大版本数,过高可能影响性能。

serverless_starrocks_slow_db_lock_time

瞬时值

podName

type

Slow DB Lock 时长。

serverless_starrocks_lake_publish_tablet_version_latency_99

瞬时值

warehouseName

podName

Publish Version 任务的 P99 分位数延迟。

serverless_starrocks_fe_tablet_max_compaction_score

瞬时值

-

BE 节点上最高的 Compaction Score。反映合并压力。