EMR Serverless StarRocks提供了告警设置功能,通过对重要的监控指标设置报警规则,可以实时了解实例的运行状况,及时处理潜在风险,保障实例稳定运行。
背景信息
EMR Serverless StarRocks 的监控告警能力基于云监控实现,支持对关键性能指标设置报警规则。当实例运行状态异常或资源使用超出预设阈值时,系统将自动触发告警,并通过短信、邮件、钉钉机器人等多种渠道通知指定联系人组,帮助您及时发现并处理潜在风险,保障服务稳定运行。
为满足不同用户的使用需求,平台提供了两种配置告警的方式:
方式 | 说明 | 推荐场景 |
通过控制台模板创建 | 使用 StarRocks 控制台提供的预设模板,一键选择常见指标和阈值,快速完成告警配置。 | 初次使用、需要快速启用基础告警的用户。 |
通过云监控创建 | 跳转至云监控控制台,自定义监控项、阈值、统计周期、持续时间等参数,实现精细化控制。 | 有特定业务需求、需复杂条件或组合条件告警的专业用户。 |
下面分别介绍两种配置方式的操作步骤。
通过控制台模板创建告警规则
此方式适用于希望快速启用常用监控告警的用户。
操作步骤
进入告警设置页面。
进入EMR Serverless StarRocks实例列表页面。
在左侧导航栏,选择。
在顶部菜单栏处,根据实际情况选择地域。
在创建实例页面,单击目标实例ID。
单击监控告警。
单击下方的告警设置。
创建告警规则。
在告警设置页面,单击创建报警规则。
在通过模板创建页签,配置以下信息:
选择告警规则:从预设类别中选择所需监控项(如可用性、集群负载、服务状态、业务场景等)。
选择告警联系人组:指定当告警触发时接收通知的联系人组。
完成配置后,单击创建。
系统将自动为您在云监控中创建对应的报警规则,若需修改报警规则,可在云监控控制台中修改。

预设告警模板说明
EMR Serverless StarRocks 提供了一系列针对核心性能与稳定性的预设告警模板,覆盖可用性、资源负载、集群服务状态及典型业务场景等关键维度。
指标类别 | 指标名称 | 描述 | 云监控指标 | 警告 |
可用性 | FE 状态探测 | 探测 FE 节点的 HTTP 端口可用性 | serverless_starrocks_fe_up | 连续 5 周期 最大值 < 1 |
BE/CN 状态探测 | 探测 BE/CN 节点的 HTTP 端口可用性 | serverless_starrocks_be_up | 连续 5 周期 最大值 < 1 | |
BE/CN 存活率 | 由 FE 上报的 BE/CN 节点存活率 | serverless_starrocks_node_info_alive_percent(暂无) | 连续 5 周期 最大值 < 100% | |
负载 | FE CPU 使用率 | FE 的 CPU 使用率 | serverless_starrocks_fe_cpu_util | 连续 5 周期 平均值 > 80% |
FE JVM Heap 使用率 | FE 的内存使用率 | serverless_starrocks_fe_jvm_heap_util(暂无) | 连续 3 周期 平均值 > 80% | |
BE/CN CPU 使用率 | BE/CN 的 CPU 使用率 | serverless_starrocks_be_cpu_util | 连续 3 周期 平均值 > 90% | |
BE/CN 内存使用率 | BE/CN 的内存使用率 | serverless_starrocks_be_mem_util | 连续 3 周期 平均值 > 80% | |
BE/CN 数据盘空间使用率 | BE/CN 数据盘的空间使用率 | serverless_starrocks_be_disks_utilization | 连续 5 周期 平均值 > 90% | |
BE/CN 数据盘 IO 使用率 | BE/CN 数据盘的 IO 使用率,即 IO 繁忙程度 | serverless_starrocks_be_max_disk_io_util_percent | 连续 10 周期 平均值 > 90% | |
集群服务 | Compaction Score | 反映数据文件合并状态。分数越高,表示数据文件合并程度越低,会影响查询性能 | serverless_starrocks_fe_max_table_compaction_score | 连续 5 周期 平均值 > 200 |
BE Tablet 最大版本数 | BE 中 Tablet 的最大版本本数,超过阈值时表明导入过于频繁 | serverless_starrocks_be_max_tablet_rowset_num(暂无) | 连续 5 周期 平均值 > 400 | |
FE Checkpoint 状态 | FE BDB 元数据 Log 个数,若超过阈值需要排查日志中的错误信息 | serverless_starrocks_fe_meta_log_count(暂无) | 连续 5 周期 平均值 > 80000 | |
业务场景 | 事务失败率 | 按业务场景设定事务失败率阈值 | serverless_starrocks_fe_txn_failed_percent(暂无) | 连续 5 周期 平均值 > 5% |
运行事务数 | 运行中的导入事务数超阈值表明可能存在导入异常 | serverless_starrocks_fe_txn_running(暂无) | 连续 3 周期 平均值 > 800 | |
DB Lock 时长 | 较长时间的 DB Lock 可能影响读写耗时 | serverless_starrocks_slow_db_lock_time(暂无) | 连续 1 周期 平均值 > 60s | |
查询延迟 (P99) | 0.99 分位的查询耗时 | serverless_starrocks_fe_query_latency_ms_p99 | 连续 3 周期 平均值 > 5000ms | |
每分钟慢查询数量 | 按业务场景设定每分钟慢查询数量阈值 | serverless_starrocks_fe_slow_query_increase | 连续 1 周期 平均值 > 100 | |
每分钟查询错误数 | 按业务场景设定每分钟查询错误数量阈值 | serverless_starrocks_fe_query_error_increase | 连续 1 周期 平均值 > 100 | |
每分钟 MV 刷新失败任务数 | 按业务场景设定每分钟刷新任务失败数阈值 | serverless_starrocks_fe_mv_refresh_total_failed_jobs_increase(暂无) | 连续 1 周期 平均值 > 5 |
通过云监控创建自定义告警规则
此方式允许您完全自定义监控维度、判断逻辑和通知策略。
1、配置告警
进入告警设置页面。
在左侧导航栏,选择。
在实例列表页面,单击目标实例ID。
单击监控告警。
单击左侧的告警设置。
在告警设置页面,单击报警规则设置。

跳转到云监控页面,可以对当前的报警规则执行修改、删除和禁用等操作,详情请参见管理报警规则。
创建报警规则。
在报警规则页面,单击创建报警规则。
在创建报警规则面板,配置以下信息,单击确认。

参数
说明
产品
选择E-MapReduce(全托管starrocks)。
资源范围
选择实例。
关联资源
单击添加实例,选择已有的StarRocks实例。
规则描述
选择,设置规则名称,选择监控指标和维度,配置阈值规则,然后单击确定。
2、接收告警
在收到查询耗时超阈值的监控告警后,请登录控制台排查问题。
3、监控排查
在监控告警的实例页面,查看概况区域,以确认是否存在问题。

查看Query区域,发现查询耗时异常增长。

在监控告警的计算组页面,查看BE监控图标。
查看BE CPU,发现负载处于正常范围内。

查看BE Mem状态,发现各项内存指标基本正常,无明显波动。

查看BE Disk IO,发现吞吐量已达到瓶颈,并与问题曲线呈现相似趋势,推测查询耗时增加的直接原因是存在大查询。

4、实时诊断与问题定位
在健康诊断页面的实时诊断页签,使用鼠标拖动选择异常时间区间,然后单击诊断。

获取实时诊断结果,定位到具体的大查询任务。

相关文档
如果您需要查看监控指标的详细信息,详情请参见云监控指标说明。
如果您需要新建联系人,详情请参见创建报警联系人或报警联系人组。
如果您需要根据自身的业务设置对应的报警规则,则可以创建自定义报警规则,详情请参见创建自定义监控报警规则。