通过EMR Serverless StarRocks提供的监控报表功能,您可以实时获取并查看实例的运行状态及各项关键性能指标,从而实现快速问题定位。
使用限制
仅保存最近30天内的报表数据,超出此期限的数据将不再保留。
操作步骤
进入EMR Serverless StarRocks实例列表页面。
在左侧导航栏,选择
。在顶部菜单栏处,根据实际情况选择地域。
单击目标实例ID。
单击监控告警页签。
在监控报表页签,您可以根据资源组和时间条件进行筛选来查看当前的指标。
支持以下资源组:
default_wg:物化视图默认资源组。
default_mv_wg:查询任务默认资源组。
单击图表上方的
图标,可以查看当前指标的含义。
监控指标说明
概况
指标名称 | 描述 |
FE可用性 | FE节点的可用性。 |
BE可用性 | BE节点的可用性。 |
FE节点数 | FE节点数量。 |
BE节点数 | BE节点数量。 |
可用节点占比 | 当节点可用占比在0%到100%之间时,不影响服务可用性。 |
Disk使用率 | 集群磁盘使用量百分比。 |
Compaction Score最大值 | 每个FE节点上最高的Compaction Score。 |
Table数量 | 集群的表数量。 |
DataBase数量 | 集群的数据库数量。 |
Query
指标名称 | 描述 |
FE每秒查询数 | 各FE每秒查询任务数,仅包括Select查询任务。 |
FE每分钟查询数 | 各FE每分钟查询任务数,仅包括Select查询任务。 |
FE每分钟查询数(总数) | FE每分钟查询任务总数,仅包括Select查询任务。 |
FE查询延迟 | FE 0.75、0.95、0.98、0.99、0.999分位的查询延迟。 |
FE每分钟查询错误数 | 各FE每分钟出现的查询错误数。 |
FE每分钟查询数(按资源组堆叠) | 按资源组分组的查询任务数堆叠图。 |
FE连接数 | 每个FE的连接数。 |
FE每秒请求数 | 每个FE每秒的请求数,包括发送到FE的所有请求。 |
Job
指标名称 | 描述 |
所有作业类型 | 所有类型作业的数量概况。 |
Broker Load作业 | Broker Load作业在各阶段的数量。 |
Stream Load作业 | Stream Load作业在各阶段的数量。 |
Insert作业 | Insert作业在各阶段的数量。 |
Routine Load作业 | Routine Load作业在各阶段的数量。 |
Spark Load作业 | Spark Load作业在各阶段的数量。 |
Hadoop Load作业 | Hadoop Load作业在各阶段的数量。 |
Rollup作业 | Rollup作业在各阶段的数量。 |
Delete作业 | Delete作业在各阶段的数量。 |
Schema Change作业 | Schema Change作业在各阶段的数量。 |
Report队列大小 | Report队列大小。 |
FE
指标名称 | 描述 |
FE JVM Heap | FE JVM Heap信息,包含max、used、committed值。 |
FE JVM Young | FE JVM Young区信息,包含max、used、peak_used、committed值。 |
FE JVM Old | FE JVM Old区信息,包含max、used、peak_used、committed值。 |
FE JVM Threads | FE JVM线程数。 |
FE JVM GC耗时 | FE JVM GC平均耗时。 |
FE JVM GC次数 | FE JVM每分钟GC次数。 |
BE
指标名称 | 描述 |
BE主机CPU使用率 | 来源于主机指标,如果您发现该指标数据不准确,请联系阿里云EMR StarRocks团队更新指标,确保数据的准确性。 |
BE Net发送/接收速率 | BE网络发送或接收字节率。 |
BE各类请求统计 | BE各种请求的总数,包括CREATE TABLE、Publish Version和Tablet Clone等。 |
BE失败请求统计 | BE各种请求失败的数量,包括CREATE TABLE、Publish Version和Tablet Clone等。 |
BE查询扫描数据量 | 处理查询时读取字节数。 |
BE查询扫描行数 | 处理查询时读取行数。 |
BE CPU空闲率(待弃用) | 每个StarRocks集群的BE CPU空闲率,低表示CPU正忙。 |
BE Mem
指标名称 | 描述 |
Mem使用率(主机) | 来源于主机指标,如果您发现该指标数据不准确,请联系阿里云EMR StarRocks团队更新指标,确保数据的准确性。 |
Process Mem | 每个BE进程使用的内存。 |
Mem Query | Query任务使用的内存。 |
Mem Update | Update操作使用的内存。 |
Mem Load | 数据Load过程使用的内存。 |
Mem Compaction | 数据Compaction操作使用的内存。 |
Mem Clone | 数据Clone操作使用的内存。 |
Mem PageCache | 存储层PageCache使用的内存。 |
Mem Metadata | Metadata使用的内存。 |
Mem Column Metadata | Column Metadata使用的内存。 |
Mem Segment Metadata | Segment Metadata使用的内存。 |
Mem Tablet Metadata | Tablet Metadata使用的内存。 |
Mem Rowset Metadata | Rowset Metadata使用的内存。 |
Mem Chunk Allocator | Chunk Allocator使用的内存。 |
Mem Consistency | Consistency使用的内存。 |
Mem Schema Change | Schema Change使用的内存。 |
Mem Bloom Filter Index | Bloom Filter Index使用的内存。 |
Mem Ordina Index | Ordina Index使用的内存。 |
Mem Bitmap Index | Bitmap Index使用的内存。 |
Mem Short Key Index | Short Key Index使用的内存。 |
Mem Column Zonemap Index | Column Zonemap Index使用的内存。 |
Mem Segment Zonemap | Segment Zonemap使用的内存。 |
Mem Tablet Schema | Tablet Schema使用的内存。 |
Mem Column Pool | Column Pool使用的内存。 |
BE Disk
指标名称 | 描述 |
Disk总使用占比 | 磁盘使用情况,主要包括:Data、Index、Trash、Expired Data等类别。目前仅能准确获取Avail、Cache、Data类型的磁盘使用情况,其他类型归类到Other中。 |
Disk总使用率 | 集群磁盘使用量百分比。 |
Disk总容量 | 集群磁盘总容量。 |
Disk总使用量 | 集群磁盘使用量。 |
Disk总可用量 | 集群磁盘可用量。 |
Disk单盘容量 | 集群磁盘单盘容量,取最大值。 |
Disk盘数 | 集群磁盘数量。 |
节点数 | 集群节点数量。 |
Disk状态 | 磁盘状态,绿色点表示磁盘状态为ONLINE,红色点表示磁盘状态为OFFLINE。 |
Disk可用量百分比 | 磁盘容量使用情况百分比。 |
Disk可用量 | 磁盘容量使用情况。 |
Disk使用率(Data) | 磁盘Data文件占用存储容量百分比。 |
Disk使用量(Data) | 磁盘Data文件占用存储容量情况。 |
Disk使用率(Other) | 磁盘Expired Data、Trash、Index等文件占用存储容量百分比。 |
Disk使用量(Other) | 磁盘Expired Data、Trash、Index等文件占用存储容量情况。 |
IO利用率 | 每个节点的最大磁盘IO利用率,表示磁盘活动时间占比。 |
Compaction
指标名称 | 描述 |
Compaction数据量 | Base Compaction和Cumulative Compaction合并的总字节数。 |
Compaction Rowset数量 | Base Compaction和Cumulative Compaction合并的Rowset的总数。 |
Compaction Mem占用量 | Compaction使用的内存。 |
Compaction Score最大值 | 每个FE节点上最高的Compaction Score。 |
Transaction
指标名称 | 描述 |
FE事务状态统计 | FE对事务状态的统计信息。 |
BE事务阶段统计 | BE在事务处理的不同阶段的统计信息。 |
资源组
指标名称 | 描述 |
资源组Running任务数 | 当前资源组Running状态的查询任务数量。 |
资源组查询延迟 | 当前资源组查询任务0.75、0.95、0.98、0.99、0.999分位延迟以及平均延迟时间。 |
资源组每分钟查询数 | 当前资源组每分钟接收的查询任务数。 |
资源组查询失败数 | 当前资源组查询任务失败数。 |
资源组触发大查询限制次数 | 当前资源组触发大查询限制次数。 |
资源组触发并发限制次数 | 当前资源组触发并发限制的查询数量。 |
资源组CPU使用占比v2.x | 当前资源组CPU使用时间占总CPU时间的百分比。 |
资源组CPU使用核数v3.1.x | 当前资源组正在使用的CPU核数,该值为一个估计值。统计的是两次获取Metric时间间隔内的平均值。该指标自v3.1.4起支持。 |
资源组Mem使用量 | 当前资源组使用的内存。 |
存算分离场景指标
该指标仅适用于存算分离版和数据湖分析版实例类型。
指标名称 | 描述 |
读延迟P95 | 读IO P95分位延迟。其中:
|
写延迟P95 | 写IO P95分位延迟。其中:
|
读吞吐量 | 读IO吞吐量。其中:
|
读IOPS | 读IOPS。其中:
|
写吞吐量 | 写IO吞吐量。其中:
|
写IOPS | 写IOPS。其中:
|
Data Cache命中率 | 本地存储缓存命中率,计算方式为缓存命中次数除总读取数据次数。 |
Data Cache驱逐次数 | 自上次启动以来缓存驱逐总次数。 |
Data Cache命中次数 | 本地存储缓存命中次数。 |
Data Cache未命中次数 | 本地缓存未命中次数。 |
库表信息
指标名称 | 描述 |
库表数量分布 | 集群各数据库的表数量分布情况。 |
Database数量 | 集群的数据库数量。 |
Table数量 | 集群的表数量。 |
Tablet数量 | 每个BE节点上的Tablet数量。 |
Table扫描数据量(粗粒度) | 非系统表扫描的总字节数。图表中数据点表示10分钟时间区间内的扫描数据增量。 |
Table导入数据量(粗粒度) | 非系统表导入的总字节数。图表中数据点表示10分钟时间区间内的导入数据增量。 |
FE/BE主机
指标名称 | 描述 |
CPU使用率(平均) | 所有节点的平均CPU使用率。 |
Mem使用率(平均) | 所有节点的平均内存使用率。 |
节点数 | 集群中的节点数量。 |
CPU核数(单机) | 单个节点上的CPU核数。 |
Mem(单机) | 单个节点的内存大小。 |
CPU使用率 | CPU使用率。 |
CPU Load 1min | 最近1分钟的CPU Load平均值。 |
Mem使用率 | 内存使用率。 |
Mem可用量 | 内存可用量。 |
Disk读流量 | 从磁盘读取数据的速率。 |
Disk读IOPS | 磁盘每秒IO读操作次数。 |
Disk读延迟 | 磁盘读取操作的平均延迟时间。 |
Disk写流量 | 向磁盘写入数据的速率。 |
Disk写IOPS | 磁盘每秒的IO写操作次数。 |
Disk写延迟 | 磁盘写入操作的平均延迟时间。 |
Net接收速率 | 网络每秒接收数据的速率。 |
Net发送速率 | 网络每秒发送数据的速率。 |
Net接收数据包 | 网络每秒接收的数据包数量。 |
Net发送数据包 | 网络每秒发送的数据包数量。 |
Net丢包率 | 网络丢失的数据包比例。 |
TCP重传率 | TCP数据传输过程中重新传输的数据包比例。 |
TCP连接数 | TCP连接数量。 |