文档

查看监控报表

更新时间:

通过EMR Serverless StarRocks提供的监控报表功能,您可以实时获取并查看实例的运行状态及各项关键性能指标,从而实现快速问题定位。

使用限制

仅保存最近30天内的报表数据,超出此期限的数据将不再保留。

操作步骤

  1. 进入EMR Serverless StarRocks实例列表页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Serverless > StarRocks

    3. 在顶部菜单栏处,根据实际情况选择地域。

  2. 单击目标实例ID。

  3. 单击监控告警页签。

  4. 监控报表页签,您可以根据资源组和时间条件进行筛选来查看当前的指标。

    • 支持以下资源组:

      • default_wg:查询任务默认资源组。

      • default_mv_wg:物化视图默认资源组。

    • 查看指标。

      单击图表上方的提示图标图标,可以查看当前指标的含义。

      • 实例指标

        image

      • 计算组指标

        image

监控指标说明

实例

  • 概况

    指标名称

    描述

    FE可用性

    FE节点的可用性。

    FE节点数

    FE节点数量。

    FE节点探测状态

    平台通过HTTP调用探测节点状态,On表示探测结果正常,Off表示探测失败。

    BE/CN可用性

    BE或CN节点的可用性。

    BE/CN节点数

    BE或CN节点数量。

    BE/CN节点探测状态

    平台通过HTTP调用探测节点状态,On表示探测结果正常,Off表示探测失败。

    Disk使用率(Avg)

    集群所有BE节点数据盘的平均使用量百分比。

    Compaction Score(Max)

    每个FE节点上最高的Compaction Score。

    每分钟查询数

    FE每分钟查询任务数,仅包括Select查询任务。

    存储量

    能够保存的数据总量,单位为GiB。

    说明

    仅适用于存算分离场景,数据存储的更新延迟约为1小时。

  • Query

    指标名称

    描述

    每分钟查询数

    每分钟查询任务数量。

    每分钟查询数(资源组)

    按资源组统计的每分钟查询任务数量。

    查询延迟

    0.99分位的查询延迟。

    查询延迟(资源组)

    按资源组统计的0.99分位的查询延迟。

    每分钟查询错误数

    每分钟出现的查询错误数。

  • FE

    指标名称

    描述

    FE CPU使用率

    FE CPU的当前使用率。

    FE CPU Load 1min

    最近1分钟内CPU负载的平均值。

    FE MEM使用率

    FE内存的当前使用率。

    FE MEM可用量

    FE可用的内存容量。

    FE连接数

    每个FE的当前连接数。

    FE事务状态统计

    FE每分钟事务状态统计。

  • 物化视图

    指标名称

    描述

    MV状态

    物化视图的状态。有效值为0(active)和 1(inactive)。

    刷新作业运行时间P99

    执行成功的物化视图刷新作业的持续时间。

    刷新作业总数

    物化视图刷新作业的总数。

    刷新作业Success

    执行成功的物化视图刷新作业的数量。

    刷新作业Failed

    执行失败的物化视图刷新作业的数量。

    刷新作业Empty

    因刷新数据为空而取消的物化视图刷新作业的数量。

    刷新作业Running

    物化视图当前正在执行的刷新作业数量。

    刷新作业Pending

    物化视图当前等待执行的刷新作业数量。

    MV改写次数

    物化视图改写查询的次数(不包括直接针对物化视图的查询)。

    MV查询次数

    物化视图改写查询的次数,包括直接查询与查询改写。

  • 库表信息

    指标名称

    描述

    库表数量分布

    实例各数据库的表数量分布情况。

    Table数量

    实例的表数量。

    Tablet数量

    实例的Tablet数量。

    Table扫描数据量

    非系统表的扫描的总字节数。

    Table导入数据量

    非系统表的导入的总字节数。

  • 其他

    指标名称

    描述

    【迁移工具】表迁移进度

    仅适用于迁移集群场景。

计算组

  • 概况

    指标名称

    描述

    CPU使用率(Avg)

    所有BE或CN节点的平均CPU使用率。

    Mem使用率(Avg)

    所有BE或CN节点的平均内存使用率。

    Disk使用率(Max)

    所有BE或CN节点的多块数据盘的最大使用率。

    Compaction Score(Max)

    所有节点的最大Compaction Score,反映当前Compaction压力。

    节点探测状态

    平台通过HTTP调用探测节点状态,On表示探测结果正常,Off表示探测失败。

  • Compaction

    指标名称

    描述

    每分钟Compaction数据量

    Base Compaction和Cumulative Compaction中合并的总字节数。

    每分钟Compaction Rowset数量

    Base Compaction和Cumulative Compaction中合并的Rowset的总数。

    Compaction Score最大值

    所有FE节点上最大的Compaction Score。

    Compaction Mem占用量

    Compaction使用的内存。

  • BE

    指标名称

    描述

    CPU使用率

    CPU使用率。

    BE CPU Load 1min

    最近1分钟内CPU负载的平均值。

    查询扫描数据量

    处理查询时读取字节数。

    查询扫描行数

    处理查询时读取行数。

    各类请求统计

    各种请求的总数,包括CREATE TABLE、Publish Version和Tablet Clone等。

    失败请求统计

    BE各种请求失败的数量,包括CREATE TABLE、Publish Version和Tablet Clone等。

    事务阶段统计

    每分钟事务阶段统计。

  • BE Mem

    指标名称

    描述

    Mem使用率

    Mem的使用率。

    Process Mem

    每个BE进程使用的内存。

    Mem剩余量

    Mem剩余量。

    指定节点Mem饼图

    展示的内存项是进程内存的子集,仅用来粗略观察各项占比。

    指定节点Mem堆叠图

  • BE Disk

    指标名称

    描述

    总使用占比

    磁盘的Avail、Cache、Data、Other使用情况,其中Other包括:PersistentIndex、Trash、Expired Data等类别。

    总使用量

    磁盘的Avail、Cache、Data、Other使用情况。

    指定节点使用量

    指定节点的各项磁盘空间使用量。

    剩余空间

    磁盘剩余可用容量。

    剩余空间百分比

    磁盘剩余可用容量百分比。

    使用量(Data)

    磁盘中Data文件占用存储空间情况。

    使用率(Data)

    磁盘中Data文件占用存储空间百分比情况。

    使用量(Cache)

    磁盘中Cache文件占用存储空间情况。

    使用率(Cache)

    磁盘中Cache文件占用存储空间百分比情况。

    使用量(Other)

    磁盘中Other文件占用的存储空间情况,其中Other包括:PersistentIndex、Trash、Expired Data等类别。

    使用率(Other)

    磁盘中Other文件占用的存储空间百分比情况,其中Other包括:PersistentIndex、Trash、Expired Data等类别。

    读流量 (SUM)

    所有磁盘每秒读取流量。

    读IOPS (SUM)

    所有磁盘每秒读取次数。

    读延迟 (AVG)

    所有磁盘平均读延迟。

    写流量 (SUM)

    所有磁盘每秒写入流量。

    写IOPS (SUM)

    所有磁盘每秒写入次数。

    写延迟 (AVG)

    所有磁盘平均写入延迟。

  • BE Net

    指标名称

    描述

    网络接收速率

    网络接收速率。

    网络发送速率

    网络发送速率。

    TCP连接数

    TCP连接数。

  • Cache

    指标名称

    描述

    FSLIB Cache命中率

    每分钟的缓存命中率。

    FSLIB Cache命中次数

    每分钟的缓存命中次数。

  • 全托管存储

    说明

    以下指标仅适用于存算分离全托管存储场景。

    指标名称

    描述

    存储量趋势

    全托管数据存储量,单位为GiB。

    读写流量

    全托管存储读写流量。

  • 资源组

    指标名称

    描述

    资源组CPU使用核数v3.1.x

    当前资源组正在使用的CPU核数,该值为一个估计值。统计的是两次获取Metric时间间隔内的平均值。该指标自v3.1.4起支持。

    资源组CPU使用占比v2.x

    当前资源组CPU使用时间占总CPU时间的百分比。

    资源组Mem使用量

    当前资源组使用的内存。

    资源组Running任务数

    当前资源组Running状态的查询任务数量。

    资源组触发并发限制次数

    当前资源组触发并发限制的查询数量。

    资源组触发大查询限制次数

    当前资源组触发大查询限制次数。

    资源组查询延迟

    当前资源组查询任务0.99分位延迟以及平均延迟时间。

    资源组每分钟查询数

    当前资源组每分钟接收的查询任务数。