配置监控告警

EMR Serverless StarRocks提供了告警设置功能,通过对重要的监控指标设置报警规则,可以实时了解实例的运行状况,及时处理潜在风险,保障实例稳定运行。

背景信息

EMR Serverless StarRocks 的监控告警能力基于云监控实现,支持对关键性能指标设置报警规则。当实例运行状态异常或资源使用超出预设阈值时,系统将自动触发告警,并通过短信、邮件、钉钉机器人等多种渠道通知指定联系人组,帮助您及时发现并处理潜在风险,保障服务稳定运行。

为满足不同用户的使用需求,平台提供了两种配置告警的方式

方式

说明

推荐场景

通过控制台模板创建

使用 StarRocks 控制台提供的预设模板,一键选择常见指标和阈值,快速完成告警配置。

初次使用、需要快速启用基础告警的用户。

通过云监控创建

跳转至云监控控制台,自定义监控项、阈值、统计周期、持续时间等参数,实现精细化控制。

有特定业务需求、需复杂条件或组合条件告警的专业用户。

下面分别介绍两种配置方式的操作步骤。

通过控制台模板创建告警规则

此方式适用于希望快速启用常用监控告警的用户。

操作步骤

  1. 进入告警设置页面

    1. 进入EMR Serverless StarRocks实例列表页面。

      1. 登录E-MapReduce控制台

      2. 在左侧导航栏,选择EMR Serverless > StarRocks

      3. 在顶部菜单栏处,根据实际情况选择地域。

    2. 创建实例页面,单击目标实例ID。

    3. 单击监控告警

    4. 单击下方的告警设置

  2. 创建告警规则

    1. 告警设置页面,单击创建报警规则

    2. 通过模板创建页签,配置以下信息:

      1. 选择告警规则:从预设类别中选择所需监控项(如可用性、集群负载、服务状态、业务场景等)。

      2. 选择告警联系人组:指定当告警触发时接收通知的联系人组。

  3. 完成配置后,单击创建

    系统将自动为您在云监控中创建对应的报警规则,若需修改报警规则,可在云监控控制台中修改。

    image

预设告警模板说明

EMR Serverless StarRocks 提供了一系列针对核心性能与稳定性的预设告警模板,覆盖可用性、资源负载、集群服务状态及典型业务场景等关键维度。

指标类别

指标名称

描述

云监控指标

警告

可用性

FE 状态探测

探测 FE 节点的 HTTP 端口可用性

serverless_starrocks_fe_up

连续 5 周期 最大值 < 1

BE/CN 状态探测

探测 BE/CN 节点的 HTTP 端口可用性

serverless_starrocks_be_up

连续 5 周期 最大值 < 1

BE/CN 存活率

由 FE 上报的 BE/CN 节点存活率

serverless_starrocks_node_info_alive_percent(暂无)

连续 5 周期 最大值 < 100%

负载

FE CPU 使用率

FE 的 CPU 使用率

serverless_starrocks_fe_cpu_util

连续 5 周期 平均值 > 80%

FE JVM Heap 使用率

FE 的内存使用率

serverless_starrocks_fe_jvm_heap_util(暂无)

连续 3 周期 平均值 > 80%

BE/CN CPU 使用率

BE/CN 的 CPU 使用率

serverless_starrocks_be_cpu_util

连续 3 周期 平均值 > 90%

BE/CN 内存使用率

BE/CN 的内存使用率

serverless_starrocks_be_mem_util

连续 3 周期 平均值 > 80%

BE/CN 数据盘空间使用率

BE/CN 数据盘的空间使用率

serverless_starrocks_be_disks_utilization

连续 5 周期 平均值 > 90%

BE/CN 数据盘 IO 使用率

BE/CN 数据盘的 IO 使用率,即 IO 繁忙程度

serverless_starrocks_be_max_disk_io_util_percent

连续 10 周期 平均值 > 90%

集群服务

Compaction Score

反映数据文件合并状态。分数越高,表示数据文件合并程度越低,会影响查询性能

serverless_starrocks_fe_max_table_compaction_score

连续 5 周期 平均值 > 200

BE Tablet 最大版本数

BE 中 Tablet 的最大版本本数,超过阈值时表明导入过于频繁

serverless_starrocks_be_max_tablet_rowset_num(暂无)

连续 5 周期 平均值 > 400

FE Checkpoint 状态

FE BDB 元数据 Log 个数,若超过阈值需要排查日志中的错误信息

serverless_starrocks_fe_meta_log_count(暂无)

连续 5 周期 平均值 > 80000

业务场景

事务失败率

按业务场景设定事务失败率阈值

serverless_starrocks_fe_txn_failed_percent(暂无)

连续 5 周期 平均值 > 5%

运行事务数

运行中的导入事务数超阈值表明可能存在导入异常

serverless_starrocks_fe_txn_running(暂无)

连续 3 周期 平均值 > 800

DB Lock 时长

较长时间的 DB Lock 可能影响读写耗时

serverless_starrocks_slow_db_lock_time(暂无)

连续 1 周期 平均值 > 60s

查询延迟 (P99)

0.99 分位的查询耗时

serverless_starrocks_fe_query_latency_ms_p99

连续 3 周期 平均值 > 5000ms

每分钟慢查询数量

按业务场景设定每分钟慢查询数量阈值

serverless_starrocks_fe_slow_query_increase

连续 1 周期 平均值 > 100

每分钟查询错误数

按业务场景设定每分钟查询错误数量阈值

serverless_starrocks_fe_query_error_increase

连续 1 周期 平均值 > 100

每分钟 MV 刷新失败任务数

按业务场景设定每分钟刷新任务失败数阈值

serverless_starrocks_fe_mv_refresh_total_failed_jobs_increase(暂无)

连续 1 周期 平均值 > 5

通过云监控创建自定义告警规则

此方式允许您完全自定义监控维度、判断逻辑和通知策略。

1、配置告警

  1. 进入告警设置页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Serverless > StarRocks

    3. 实例列表页面,单击目标实例ID。

    4. 单击监控告警

    5. 单击左侧的告警设置

  2. 告警设置页面,单击报警规则设置

    image.png

    跳转到云监控页面,可以对当前的报警规则执行修改、删除和禁用等操作,详情请参见管理报警规则

  3. 创建报警规则。

    1. 报警规则页面,单击创建报警规则

    2. 创建报警规则面板,配置以下信息,单击确认

      image

      参数

      说明

      产品

      选择E-MapReduce(全托管starrocks)

      资源范围

      选择实例

      关联资源

      单击添加实例,选择已有的StarRocks实例。

      规则描述

      选择添加规则 > 简单指标,设置规则名称,选择监控指标维度,配置阈值规则,然后单击确定

2、接收告警

在收到查询耗时超阈值的监控告警后,请登录控制台排查问题。image

3、监控排查

  1. 监控告警实例页面,查看概况区域,以确认是否存在问题。

    image

  2. 查看Query区域,发现查询耗时异常增长。

    image

  3. 监控告警计算组页面,查看BE监控图标。

    • 查看BE CPU,发现负载处于正常范围内。

      image

    • 查看BE Mem状态,发现各项内存指标基本正常,无明显波动。

      image

    • 查看BE Disk IO,发现吞吐量已达到瓶颈,并与问题曲线呈现相似趋势,推测查询耗时增加的直接原因是存在大查询。

      image

4、实时诊断与问题定位

  1. 健康诊断页面的实时诊断页签,使用鼠标拖动选择异常时间区间,然后单击诊断

    image

  2. 获取实时诊断结果,定位到具体的大查询任务。

    image

相关文档