查看监控报表

通过EMR Serverless StarRocks提供的监控报表功能,您可以实时获取并查看实例的运行状态及各项关键性能指标,从而实现快速问题定位。

使用限制

仅保存最近30天内的报表数据,超出此期限的数据将不再保留。

注意事项

监控指标中包含了root账号相关的信息,例如每分钟查询数等。root账号是阿里云EMR Serverless StarRocks控制台用于管理集群的专用账号,该账号对客户不可见,并且不能直接使用。

操作步骤

  1. 进入EMR Serverless StarRocks实例列表页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Serverless > StarRocks

    3. 在顶部菜单栏处,根据实际情况选择地域。

  2. 单击目标实例ID。

  3. 单击监控告警页签。

  4. 监控告警页签,您可以根据资源组和时间条件进行筛选来查看当前的指标。

    支持以下资源组:

    • default_wg:查询任务默认资源组。

    • default_mv_wg:物化视图默认资源组。

监控指标说明

实例

  • 概况

    指标名称

    描述

    FE可用性

    FE节点的可用性。

    BE/CN可用性

    BECN节点的可用性。

    FE节点数

    FE节点数量。

    BE/CN节点数

    BECN节点数量。

    Disk使用率(Avg)

    集群所有BE节点数据盘的平均使用量百分比。

    存储量

    StarRocks实际使用的存储空间大小。该指标适用于存算分离场景,存储量数据更新约有1小时延迟。

    Compaction Score(Max)

    指每个FE节点上最高的Compaction Score,仅适用于存算一体的场景。

    FE节点探测状态

    平台通过HTTP调用探测节点状态,On表示探测结果正常,Off表示探测失败。

    BE/CN节点状态

    FE上报的BE/CN节点状态。若Alive节点数异常,请通过SHOW COMPUTE NODES查看节点详情。

  • Query

    指标名称

    描述

    每分钟查询数

    每分钟查询任务数量。

    每分钟查询错误数

    每分钟出现的查询错误数。

    查询延迟

    查询请求的延迟时间。

    每分钟慢查询数

    每分钟慢查询数。

  • FE

    指标名称

    描述

    FE事务状态统计

    FE每分钟事务状态统计。

    FE数据盘使用量

    FE数据盘使用量,每小时采集一次。

  • FE CPU

    指标名称

    描述

    FE CPU使用率

    FE CPU的当前使用率。

    FE CPU Load 1min

    最近1分钟内CPU负载的平均值。

  • FE Mem

    指标名称

    描述

    JVM Heap使用率

    显示JVM堆的已用内存与最大内存的比例。

    JVM Young GC

    监控年轻代垃圾回收的次数和时间。

    JVM Heap使用量

    监控JVM堆的使用情况。

    JVM Old GC

    监控JVM堆中老年代垃圾回收的次数和时间。

  • FE Net

    指标名称

    描述

    网络接收速率

    网络接收速率。

    网络发送速率

    网络发送速率。

    FE连接数

    每个FE的当前连接数。

  • 资源组

    指标名称

    描述

    每分钟查询数

    指定资源组每分钟查询任务数。

    查询延迟P99

    查询请求的延迟时间。

    每分钟查询数(资源组)

    资源组每分钟查询任务数。

  • 物化视图

    指标名称

    描述

    MV状态

    物化视图的状态。取值为0(active)和 1(inactive)。

    刷新作业运行时间P99

    执行成功的物化视图刷新作业的持续时间。

    刷新作业总数

    物化视图刷新作业的总数。

    刷新作业Success

    执行成功的物化视图刷新作业的数量。

    刷新作业Failed

    执行失败的物化视图刷新作业的数量。

    刷新作业Empty

    因刷新数据为空而取消的物化视图刷新作业的数量。

    刷新作业Running

    物化视图当前正在执行的刷新作业数量。

    刷新作业Pending

    物化视图当前等待执行的刷新作业数量。

    MV改写次数

    物化视图改写查询的次数(不包括直接针对物化视图的查询)。

    MV查询次数

    物化视图改写查询的次数,包括直接查询与查询改写。

  • 库表信息

    指标名称

    描述

    库表数量分布

    实例各数据库的表数量分布情况。

    Table数量

    实例的表数量。

    Tablet数量

    实例的Tablet数量。

    Table扫描数据量

    非系统表的扫描的总字节数。

    Table导入数据量

    非系统表的导入的总字节数。

  • 其他

    指标名称

    描述

    【迁移工具】表迁移进度

    仅适用于迁移集群场景。

计算组

  • 概况

    指标名称

    描述

    CPU使用率(Avg)

    所有BECN节点的平均CPU使用率。

    Mem使用率(Avg)

    所有BECN节点的平均内存使用率。

    Disk使用率(Max)

    所有BECN节点的多块数据盘的最大使用率。

    BE/CN节点状态

    平台通过HTTP调用探测节点状态,On表示探测结果正常,Off表示探测失败。

  • Compaction

    指标名称

    描述

    Compaction Score最大值

    所有FE节点上最大的Compaction Score。

    Compaction Mem占用量

    Compaction使用的内存。

    每分钟Compaction数据量

    Base CompactionCumulative Compaction中合并的总字节数。

    每分钟Compaction Rowset数量

    Base CompactionCumulative Compaction中合并的Rowset的总数。

  • BE/CN

    指标名称

    描述

    查询扫描数据量

    处理查询时读取字节数。

    查询扫描行数

    处理查询时读取行数。

    各类请求统计

    各种请求的总数,包括CREATE TABLE、Publish VersionTablet Clone等。

    失败请求统计

    BE各种请求失败的数量,包括CREATE TABLE、Publish VersionTablet Clone等。

    事务阶段统计

    每分钟事务阶段统计。

  • BE/CN CPU

    指标名称

    描述

    CPU使用率

    CPU使用率。

    BE/CN CPU Load 1min

    最近1分钟内CPU负载的平均值。

  • BE/CN Mem

    指标名称

    描述

    节点内存使用率

    节点内存使用率,包含BE/CN进程内存、UDF占用内存、BE/CN预留内存等。

    BE/CN进程内存

    BE/CN进程的内存使用量。

    进程内存

    BE进程内存,取决于内核采集的内存项,非全量,不在采集范围的内存项用 Other 表示。更多内存信息,请参见管理内存

    节点内存

    分为剩余可用内存(Pod Avail Mem)、BE/CN进程占用的内存(Process Mem)、其他占用内存 (Non Process Mem)三项。

    节点内存

    BE/CN节点的内存情况,分为节点内存、81%节点内存线、节点内存使用量、进程内存使用量。 BE/CN可用内存上限受SR代码中0.9系数和mem_limit配置项(默认为0.9)共同限制,BE实际可用内存默认为节点内存的81%。

  • BE/CN Disk

    指标名称

    描述

    磁盘空间使用率

    磁盘已使用空间占总容量的比例,主要包括Data、Trash等。

    磁盘空间使用量

    磁盘已使用的绝对容量。

    使用量(Data)

    磁盘中Data文件占用的存储空间情况。

    使用率(Data)

    磁盘中Data文件占用存储空间百分比情况。

  • BE/CN Disk IO

    指标名称

    描述

    读流量(SUM)

    所有磁盘每秒读取流量。

    写流量(SUM)

    所有磁盘每秒写入流量。

    IOPS(SUM)

    所有磁盘每秒读取次数。

    IOPS(SUM)

    所有磁盘每秒写入次数。

    读延迟(AVG)

    所有磁盘平均读延迟。

    写延迟(AVG)

    所有磁盘平均写入延迟。

    IO Util(Max)

    表示在一段时间内 I/O 设备(如磁盘、网络接口等)处于忙碌状态的时间比例,通常以百分比形式呈现,反映了设备的繁忙程度。

  • BE/CN Net

    指标名称

    描述

    网络接收速率

    网络接收速率。

    网络发送速率

    网络发送速率。

    TCP连接数

    TCP连接数。

  • Cache

    说明

    以下指标仅适用于存算分离场景。

    指标名称

    描述

    FSLIB Cache命中率

    每分钟的缓存命中率。

    FSLIB Cache命中次数

    每分钟的缓存命中次数。

  • 全托管存储

    说明

    以下指标仅适用于存算分离全托管存储场景。

    指标名称

    描述

    存储量趋势

    全托管数据存储量,单位为GiB。

    读写流量

    全托管存储读写流量。

  • 资源组

    指标名称

    描述

    CPU使用核数

    当前资源组正在使用的CPU核数,该值为一个估计值。统计的是两次获取Metric时间间隔内的平均值。该指标自v3.1.4起支持。

    CPU使用占比v2.x

    当前资源组CPU使用时间占总CPU时间的百分比。

    Mem使用量

    当前资源组使用的内存。

    Running任务数

    当前资源组Running状态的查询任务数量。

    触发并发限制次数

    当前资源组触发并发限制的查询数量。

    触发大查询限制次数

    当前资源组触发大查询限制次数。

  • 其他

    指标名称

    描述

    Page Cache命中率

    从页缓存中命中的请求数。

    Publish Version Latency P99

    StarRocks写数据时发布版本的耗时。

存储

  • 数据存储

    指标名称

    描述

    存储量趋势

    全托管数据存储量,单位为GiB。该指标适用于存算分离全托管数据存储场景,存储量数据更新有约1小时延迟。

    读写流量

    全托管存储读写流量。该指标适用于存算分离全托管存储场景。

  • Disk Usage

    • 存算分离

      指标名称

      描述

      磁盘空间使用率

      磁盘空间的使用占比。

      磁盘空间使用量

      磁盘空间的使用量。

    • 存算一体

      指标名称

      描述

      剩余空间百分比

      磁盘剩余可用容量百分比。

      剩余空间

      磁盘剩余可用容量。

      使用量(Data)

      磁盘中Data文件占用存储空间情况。

      使用率(Data)

      磁盘中Data文件占用存储空间百分比情况。

      使用量饼图(SUM)

      磁盘中Avail、Cache、Data文件的使用量。

      使用量折线图(SUM)

  • Disk IO

    指标名称

    描述

    读流量(SUM)

    所有磁盘每秒读取流量。

    写流量(SUM)

    所有磁盘每秒写入流量。

    IOPS(SUM)

    所有磁盘每秒读取次数。

    IOPS(SUM)

    所有磁盘每秒写入次数。

    读延迟(AVG)

    所有磁盘平均读延迟。

    写延迟(AVG)

    所有磁盘平均写入延迟。

    IO Util(Max)

    表示在一段时间内 I/O 设备(如磁盘、网络接口等)处于忙碌状态的时间比例,通常以百分比形式呈现,反映了设备的繁忙程度。