文档

查看监控报表

更新时间:

通过EMR Serverless StarRocks提供的监控报表功能,您可以实时获取并查看实例的运行状态及各项关键性能指标,从而实现快速问题定位。

使用限制

仅保存最近30天内的报表数据,超出此期限的数据将不再保留。

操作步骤

  1. 进入EMR Serverless StarRocks实例列表页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Serverless > StarRocks

    3. 在顶部菜单栏处,根据实际情况选择地域。

  2. 单击目标实例ID。

  3. 单击监控告警页签。

  4. 监控报表页签,您可以根据资源组和时间条件进行筛选来查看当前的指标。

    • 支持以下资源组:

      • default_wg:物化视图默认资源组。

      • default_mv_wg:查询任务默认资源组。

    • 单击图表上方的提示图标图标,可以查看当前指标的含义。image

监控指标说明

概况

指标名称

描述

FE可用性

FE节点的可用性。

BE可用性

BE节点的可用性。

FE节点数

FE节点数量。

BE节点数

BE节点数量。

可用节点占比

当节点可用占比在0%到100%之间时,不影响服务可用性。

Disk使用率

集群磁盘使用量百分比。

Compaction Score最大值

每个FE节点上最高的Compaction Score。

Table数量

集群的表数量。

DataBase数量

集群的数据库数量。

Query

指标名称

描述

FE每秒查询数

各FE每秒查询任务数,仅包括Select查询任务。

FE每分钟查询数

各FE每分钟查询任务数,仅包括Select查询任务。

FE每分钟查询数(总数)

FE每分钟查询任务总数,仅包括Select查询任务。

FE查询延迟

FE 0.75、0.95、0.98、0.99、0.999分位的查询延迟。

FE每分钟查询错误数

各FE每分钟出现的查询错误数。

FE每分钟查询数(按资源组堆叠)

按资源组分组的查询任务数堆叠图。

FE连接数

每个FE的连接数。

FE每秒请求数

每个FE每秒的请求数,包括发送到FE的所有请求。

Job

指标名称

描述

所有作业类型

所有类型作业的数量概况。

Broker Load作业

Broker Load作业在各阶段的数量。

Stream Load作业

Stream Load作业在各阶段的数量。

Insert作业

Insert作业在各阶段的数量。

Routine Load作业

Routine Load作业在各阶段的数量。

Spark Load作业

Spark Load作业在各阶段的数量。

Hadoop Load作业

Hadoop Load作业在各阶段的数量。

Rollup作业

Rollup作业在各阶段的数量。

Delete作业

Delete作业在各阶段的数量。

Schema Change作业

Schema Change作业在各阶段的数量。

Report队列大小

Report队列大小。

FE

指标名称

描述

FE JVM Heap

FE JVM Heap信息,包含max、used、committed值。

FE JVM Young

FE JVM Young区信息,包含max、used、peak_used、committed值。

FE JVM Old

FE JVM Old区信息,包含max、used、peak_used、committed值。

FE JVM Threads

FE JVM线程数。

FE JVM GC耗时

FE JVM GC平均耗时。

FE JVM GC次数

FE JVM每分钟GC次数。

BE

指标名称

描述

BE主机CPU使用率

来源于主机指标,如果您发现该指标数据不准确,请联系阿里云EMR StarRocks团队更新指标,确保数据的准确性。

BE Net发送/接收速率

BE网络发送或接收字节率。

BE各类请求统计

BE各种请求的总数,包括CREATE TABLE、Publish Version和Tablet Clone等。

BE失败请求统计

BE各种请求失败的数量,包括CREATE TABLE、Publish Version和Tablet Clone等。

BE查询扫描数据量

处理查询时读取字节数。

BE查询扫描行数

处理查询时读取行数。

BE CPU空闲率(待弃用)

每个StarRocks集群的BE CPU空闲率,低表示CPU正忙。

BE Mem

指标名称

描述

Mem使用率(主机)

来源于主机指标,如果您发现该指标数据不准确,请联系阿里云EMR StarRocks团队更新指标,确保数据的准确性。

Process Mem

每个BE进程使用的内存。

Mem Query

Query任务使用的内存。

Mem Update

Update操作使用的内存。

Mem Load

数据Load过程使用的内存。

Mem Compaction

数据Compaction操作使用的内存。

Mem Clone

数据Clone操作使用的内存。

Mem PageCache

存储层PageCache使用的内存。

Mem Metadata

Metadata使用的内存。

Mem Column Metadata

Column Metadata使用的内存。

Mem Segment Metadata

Segment Metadata使用的内存。

Mem Tablet Metadata

Tablet Metadata使用的内存。

Mem Rowset Metadata

Rowset Metadata使用的内存。

Mem Chunk Allocator

Chunk Allocator使用的内存。

Mem Consistency

Consistency使用的内存。

Mem Schema Change

Schema Change使用的内存。

Mem Bloom Filter Index

Bloom Filter Index使用的内存。

Mem Ordina Index

Ordina Index使用的内存。

Mem Bitmap Index

Bitmap Index使用的内存。

Mem Short Key Index

Short Key Index使用的内存。

Mem Column Zonemap Index

Column Zonemap Index使用的内存。

Mem Segment Zonemap

Segment Zonemap使用的内存。

Mem Tablet Schema

Tablet Schema使用的内存。

Mem Column Pool

Column Pool使用的内存。

BE Disk

指标名称

描述

Disk总使用占比

磁盘使用情况,主要包括:Data、Index、Trash、Expired Data等类别。目前仅能准确获取Avail、Cache、Data类型的磁盘使用情况,其他类型归类到Other中。

Disk总使用率

集群磁盘使用量百分比。

Disk总容量

集群磁盘总容量。

Disk总使用量

集群磁盘使用量。

Disk总可用量

集群磁盘可用量。

Disk单盘容量

集群磁盘单盘容量,取最大值。

Disk盘数

集群磁盘数量。

节点数

集群节点数量。

Disk状态

磁盘状态,绿色点表示磁盘状态为ONLINE,红色点表示磁盘状态为OFFLINE。

Disk可用量百分比

磁盘容量使用情况百分比。

Disk可用量

磁盘容量使用情况。

Disk使用率(Data)

磁盘Data文件占用存储容量百分比。

Disk使用量(Data)

磁盘Data文件占用存储容量情况。

Disk使用率(Other)

磁盘Expired Data、Trash、Index等文件占用存储容量百分比。

Disk使用量(Other)

磁盘Expired Data、Trash、Index等文件占用存储容量情况。

IO利用率

每个节点的最大磁盘IO利用率,表示磁盘活动时间占比。

Compaction

指标名称

描述

Compaction数据量

Base Compaction和Cumulative Compaction合并的总字节数。

Compaction Rowset数量

Base Compaction和Cumulative Compaction合并的Rowset的总数。

Compaction Mem占用量

Compaction使用的内存。

Compaction Score最大值

每个FE节点上最高的Compaction Score。

Transaction

指标名称

描述

FE事务状态统计

FE对事务状态的统计信息。

BE事务阶段统计

BE在事务处理的不同阶段的统计信息。

资源组

指标名称

描述

资源组Running任务数

当前资源组Running状态的查询任务数量。

资源组查询延迟

当前资源组查询任务0.75、0.95、0.98、0.99、0.999分位延迟以及平均延迟时间。

资源组每分钟查询数

当前资源组每分钟接收的查询任务数。

资源组查询失败数

当前资源组查询任务失败数。

资源组触发大查询限制次数

当前资源组触发大查询限制次数。

资源组触发并发限制次数

当前资源组触发并发限制的查询数量。

资源组CPU使用占比v2.x

当前资源组CPU使用时间占总CPU时间的百分比。

资源组CPU使用核数v3.1.x

当前资源组正在使用的CPU核数,该值为一个估计值。统计的是两次获取Metric时间间隔内的平均值。该指标自v3.1.4起支持。

资源组Mem使用量

当前资源组使用的内存。

存算分离场景指标

说明

该指标仅适用于存算分离版和数据湖分析版实例类型。

指标名称

描述

读延迟P95

读IO P95分位延迟。其中:

  • posix前缀指标为本地读IO延迟。

  • oss前缀指标为OSS读IO延迟。

写延迟P95

写IO P95分位延迟。其中:

  • posix前缀指标为本地写IO延迟。

  • oss前缀指标为OSS写IO延迟。

读吞吐量

读IO吞吐量。其中:

  • posix前缀指标为本地读IO吞吐量。

  • oss前缀指标为OSS读IO吞吐量。

读IOPS

读IOPS。其中:

  • posix前缀指标为本地读IOPS。

  • oss前缀指标为OSS读IOPS。

写吞吐量

写IO吞吐量。其中:

  • posix前缀指标为本地写IO吞吐量。

  • oss前缀指标为OSS写IO吞吐量。

写IOPS

写IOPS。其中:

  • posix前缀指标为本地写IOPS。

  • oss前缀指标为OSS写IOPS。

Data Cache命中率

本地存储缓存命中率,计算方式为缓存命中次数除总读取数据次数。

Data Cache驱逐次数

自上次启动以来缓存驱逐总次数。

Data Cache命中次数

本地存储缓存命中次数。

Data Cache未命中次数

本地缓存未命中次数。

库表信息

指标名称

描述

库表数量分布

集群各数据库的表数量分布情况。

Database数量

集群的数据库数量。

Table数量

集群的表数量。

Tablet数量

每个BE节点上的Tablet数量。

Table扫描数据量(粗粒度)

非系统表扫描的总字节数。图表中数据点表示10分钟时间区间内的扫描数据增量。

Table导入数据量(粗粒度)

非系统表导入的总字节数。图表中数据点表示10分钟时间区间内的导入数据增量。

FE/BE主机

指标名称

描述

CPU使用率(平均)

所有节点的平均CPU使用率。

Mem使用率(平均)

所有节点的平均内存使用率。

节点数

集群中的节点数量。

CPU核数(单机)

单个节点上的CPU核数。

Mem(单机)

单个节点的内存大小。

CPU使用率

CPU使用率。

CPU Load 1min

最近1分钟的CPU Load平均值。

Mem使用率

内存使用率。

Mem可用量

内存可用量。

Disk读流量

从磁盘读取数据的速率。

Disk读IOPS

磁盘每秒IO读操作次数。

Disk读延迟

磁盘读取操作的平均延迟时间。

Disk写流量

向磁盘写入数据的速率。

Disk写IOPS

磁盘每秒的IO写操作次数。

Disk写延迟

磁盘写入操作的平均延迟时间。

Net接收速率

网络每秒接收数据的速率。

Net发送速率

网络每秒发送数据的速率。

Net接收数据包

网络每秒接收的数据包数量。

Net发送数据包

网络每秒发送的数据包数量。

Net丢包率

网络丢失的数据包比例。

TCP重传率

TCP数据传输过程中重新传输的数据包比例。

TCP连接数

TCP连接数量。