通过EMR Serverless StarRocks提供的监控报表功能,您可以实时获取并查看实例的运行状态及各项关键性能指标,从而实现快速问题定位。
使用限制
仅保存最近30天内的报表数据,超出此期限的数据将不再保留。
注意事项
监控指标中包含了root账号相关的信息,例如每分钟查询数等。root账号是阿里云EMR Serverless StarRocks控制台用于管理集群的专用账号,该账号对客户不可见,并且不能直接使用。
操作步骤
进入EMR Serverless StarRocks实例列表页面。
在左侧导航栏,选择
。在顶部菜单栏处,根据实际情况选择地域。
单击目标实例ID。
单击监控告警页签。
在监控告警页签,您可以根据资源组和时间条件进行筛选来查看当前的指标。
支持以下资源组:
default_wg:查询任务默认资源组。
default_mv_wg:物化视图默认资源组。
监控指标说明
实例
概况
指标名称
描述
FE可用性
FE节点的可用性。
BE/CN可用性
BE或CN节点的可用性。
FE节点数
FE节点数量。
BE/CN节点数
BE或CN节点数量。
Disk使用率(Avg)
集群所有BE节点数据盘的平均使用量百分比。
存储量
StarRocks实际使用的存储空间大小。该指标适用于存算分离场景,存储量数据更新约有1小时延迟。
Compaction Score(Max)
指每个FE节点上最高的Compaction Score,仅适用于存算一体的场景。
FE节点探测状态
平台通过HTTP调用探测节点状态,On表示探测结果正常,Off表示探测失败。
BE/CN节点状态
FE上报的BE/CN节点状态。若Alive节点数异常,请通过SHOW COMPUTE NODES查看节点详情。
Query
指标名称
描述
每分钟查询数
每分钟查询任务数量。
每分钟查询错误数
每分钟出现的查询错误数。
查询延迟
查询请求的延迟时间。
每分钟慢查询数
每分钟慢查询数。
FE
指标名称
描述
FE事务状态统计
FE每分钟事务状态统计。
FE数据盘使用量
FE数据盘使用量,每小时采集一次。
FE CPU
指标名称
描述
FE CPU使用率
FE CPU的当前使用率。
FE CPU Load 1min
最近1分钟内CPU负载的平均值。
FE Mem
指标名称
描述
JVM Heap使用率
显示JVM堆的已用内存与最大内存的比例。
JVM Young GC
监控年轻代垃圾回收的次数和时间。
JVM Heap使用量
监控JVM堆的使用情况。
JVM Old GC
监控JVM堆中老年代垃圾回收的次数和时间。
FE Net
指标名称
描述
网络接收速率
网络接收速率。
网络发送速率
网络发送速率。
FE连接数
每个FE的当前连接数。
资源组
指标名称
描述
每分钟查询数
指定资源组每分钟查询任务数。
查询延迟P99
查询请求的延迟时间。
每分钟查询数(资源组)
资源组每分钟查询任务数。
物化视图
指标名称
描述
MV状态
物化视图的状态。取值为0(active)和 1(inactive)。
刷新作业运行时间P99
执行成功的物化视图刷新作业的持续时间。
刷新作业总数
物化视图刷新作业的总数。
刷新作业Success
执行成功的物化视图刷新作业的数量。
刷新作业Failed
执行失败的物化视图刷新作业的数量。
刷新作业Empty
因刷新数据为空而取消的物化视图刷新作业的数量。
刷新作业Running
物化视图当前正在执行的刷新作业数量。
刷新作业Pending
物化视图当前等待执行的刷新作业数量。
MV改写次数
物化视图改写查询的次数(不包括直接针对物化视图的查询)。
MV查询次数
物化视图改写查询的次数,包括直接查询与查询改写。
库表信息
指标名称
描述
库表数量分布
实例各数据库的表数量分布情况。
Table数量
实例的表数量。
Tablet数量
实例的Tablet数量。
Table扫描数据量
非系统表的扫描的总字节数。
Table导入数据量
非系统表的导入的总字节数。
其他
指标名称
描述
【迁移工具】表迁移进度
仅适用于迁移集群场景。
计算组
概况
指标名称
描述
CPU使用率(Avg)
所有BE或CN节点的平均CPU使用率。
Mem使用率(Avg)
所有BE或CN节点的平均内存使用率。
Disk使用率(Max)
所有BE或CN节点的多块数据盘的最大使用率。
BE/CN节点状态
平台通过HTTP调用探测节点状态,On表示探测结果正常,Off表示探测失败。
Compaction
指标名称
描述
Compaction Score最大值
所有FE节点上最大的Compaction Score。
Compaction Mem占用量
Compaction使用的内存。
每分钟Compaction数据量
Base Compaction和Cumulative Compaction中合并的总字节数。
每分钟Compaction Rowset数量
Base Compaction和Cumulative Compaction中合并的Rowset的总数。
BE/CN
指标名称
描述
查询扫描数据量
处理查询时读取字节数。
查询扫描行数
处理查询时读取行数。
各类请求统计
各种请求的总数,包括CREATE TABLE、Publish Version和Tablet Clone等。
失败请求统计
BE各种请求失败的数量,包括CREATE TABLE、Publish Version和Tablet Clone等。
事务阶段统计
每分钟事务阶段统计。
BE/CN CPU
指标名称
描述
CPU使用率
CPU使用率。
BE/CN CPU Load 1min
最近1分钟内CPU负载的平均值。
BE/CN Mem
指标名称
描述
节点内存使用率
节点内存使用率,包含BE/CN进程内存、UDF占用内存、BE/CN预留内存等。
BE/CN进程内存
BE/CN进程的内存使用量。
进程内存
BE进程内存,取决于内核采集的内存项,非全量,不在采集范围的内存项用 Other 表示。更多内存信息,请参见管理内存。
节点内存
分为剩余可用内存(Pod Avail Mem)、BE/CN进程占用的内存(Process Mem)、其他占用内存 (Non Process Mem)三项。
节点内存
BE/CN节点的内存情况,分为节点内存、81%节点内存线、节点内存使用量、进程内存使用量。 BE/CN可用内存上限受SR代码中0.9系数和mem_limit配置项(默认为0.9)共同限制,BE实际可用内存默认为节点内存的81%。
BE/CN Disk
指标名称
描述
磁盘空间使用率
磁盘已使用空间占总容量的比例,主要包括Data、Trash等。
磁盘空间使用量
磁盘已使用的绝对容量。
使用量(Data)
磁盘中Data文件占用的存储空间情况。
使用率(Data)
磁盘中Data文件占用存储空间百分比情况。
BE/CN Disk IO
指标名称
描述
读流量(SUM)
所有磁盘每秒读取流量。
写流量(SUM)
所有磁盘每秒写入流量。
读IOPS(SUM)
所有磁盘每秒读取次数。
写IOPS(SUM)
所有磁盘每秒写入次数。
读延迟(AVG)
所有磁盘平均读延迟。
写延迟(AVG)
所有磁盘平均写入延迟。
IO Util(Max)
表示在一段时间内 I/O 设备(如磁盘、网络接口等)处于忙碌状态的时间比例,通常以百分比形式呈现,反映了设备的繁忙程度。
BE/CN Net
指标名称
描述
网络接收速率
网络接收速率。
网络发送速率
网络发送速率。
TCP连接数
TCP连接数。
Cache
说明以下指标仅适用于存算分离场景。
指标名称
描述
FSLIB Cache命中率
每分钟的缓存命中率。
FSLIB Cache命中次数
每分钟的缓存命中次数。
全托管存储
说明以下指标仅适用于存算分离全托管存储场景。
指标名称
描述
存储量趋势
全托管数据存储量,单位为GiB。
读写流量
全托管存储读写流量。
资源组
指标名称
描述
CPU使用核数
当前资源组正在使用的CPU核数,该值为一个估计值。统计的是两次获取Metric时间间隔内的平均值。该指标自v3.1.4起支持。
CPU使用占比v2.x
当前资源组CPU使用时间占总CPU时间的百分比。
Mem使用量
当前资源组使用的内存。
Running任务数
当前资源组Running状态的查询任务数量。
触发并发限制次数
当前资源组触发并发限制的查询数量。
触发大查询限制次数
当前资源组触发大查询限制次数。
其他
指标名称
描述
Page Cache命中率
从页缓存中命中的请求数。
Publish Version Latency P99
StarRocks写数据时发布版本的耗时。
存储
数据存储
指标名称
描述
存储量趋势
全托管数据存储量,单位为GiB。该指标适用于存算分离全托管数据存储场景,存储量数据更新有约1小时延迟。
读写流量
全托管存储读写流量。该指标适用于存算分离全托管存储场景。
Disk Usage
存算分离
指标名称
描述
磁盘空间使用率
磁盘空间的使用占比。
磁盘空间使用量
磁盘空间的使用量。
存算一体
指标名称
描述
剩余空间百分比
磁盘剩余可用容量百分比。
剩余空间
磁盘剩余可用容量。
使用量(Data)
磁盘中Data文件占用存储空间情况。
使用率(Data)
磁盘中Data文件占用存储空间百分比情况。
使用量饼图(SUM)
磁盘中Avail、Cache、Data文件的使用量。
使用量折线图(SUM)
Disk IO
指标名称
描述
读流量(SUM)
所有磁盘每秒读取流量。
写流量(SUM)
所有磁盘每秒写入流量。
读IOPS(SUM)
所有磁盘每秒读取次数。
写IOPS(SUM)
所有磁盘每秒写入次数。
读延迟(AVG)
所有磁盘平均读延迟。
写延迟(AVG)
所有磁盘平均写入延迟。
IO Util(Max)
表示在一段时间内 I/O 设备(如磁盘、网络接口等)处于忙碌状态的时间比例,通常以百分比形式呈现,反映了设备的繁忙程度。