监控告警配置方法与诊断排查指南-开源大数据平台 E-MapReduce-阿里云

EMR Serverless StarRocks提供了告警设置功能，通过对重要的监控指标设置报警规则，可以实时了解实例的运行状况，及时处理潜在风险，保障实例稳定运行。

背景信息

EMR Serverless StarRocks 的监控告警能力基于云监控实现，支持对关键性能指标设置报警规则。当实例运行状态异常或资源使用超出预设阈值时，系统将自动触发告警，并通过短信、邮件、钉钉机器人等多种渠道通知指定联系人组，帮助您及时发现并处理潜在风险，保障服务稳定运行。

为满足不同用户的使用需求，平台提供了两种配置告警的方式：

方式	说明	推荐场景
通过控制台模板创建	使用 StarRocks 控制台提供的预设模板，一键选择常见指标和阈值，快速完成告警配置。	初次使用、需要快速启用基础告警的用户。
通过云监控创建	跳转至云监控控制台，自定义监控项、阈值、统计周期、持续时间等参数，实现精细化控制。	有特定业务需求、需复杂条件或组合条件告警的专业用户。

下面分别介绍两种配置方式的操作步骤。

通过控制台模板创建告警规则

此方式适用于希望快速启用常用监控告警的用户。

操作步骤

进入告警设置页面。
1. 进入EMR Serverless StarRocks实例列表页面。
  1. 登录E-MapReduce控制台。
  2. 在左侧导航栏，选择EMR Serverless > StarRocks。
  3. 在顶部菜单栏处，根据实际情况选择地域。
2. 在创建实例页面，单击目标实例ID。
3. 单击监控告警。
4. 单击下方的告警设置。
创建告警规则。
1. 在告警设置页面，单击创建报警规则。
2. 在通过模板创建页签，配置以下信息：
  1. 选择告警规则：从预设类别中选择所需监控项（如可用性、集群负载、服务状态、业务场景等）。
  2. 选择告警联系人组：指定当告警触发时接收通知的联系人组。
完成配置后，单击创建。
系统将自动为您在云监控中创建对应的报警规则，若需修改报警规则，可在云监控控制台中修改。

预设告警模板说明

EMR Serverless StarRocks 提供了一系列针对核心性能与稳定性的预设告警模板，覆盖可用性、资源负载、集群服务状态及典型业务场景等关键维度。

指标类别	指标名称	描述	云监控指标	警告
可用性	FE 状态探测	探测 FE 节点的 HTTP 端口可用性	serverless_starrocks_fe_up	连续 5 周期最大值 < 1
	BE/CN 状态探测	探测 BE/CN 节点的 HTTP 端口可用性	serverless_starrocks_be_up	连续 5 周期最大值 < 1
	BE/CN 存活率	由 FE 上报的 BE/CN 节点存活率	serverless_starrocks_node_info_alive_percent（暂无）	连续 5 周期最大值 < 100%
负载	FE CPU 使用率	FE 的 CPU 使用率	serverless_starrocks_fe_cpu_util	连续 5 周期平均值 > 80%
	FE JVM Heap 使用率	FE 的内存使用率	serverless_starrocks_fe_jvm_heap_util（暂无）	连续 3 周期平均值 > 80%
	BE/CN CPU 使用率	BE/CN 的 CPU 使用率	serverless_starrocks_be_cpu_util	连续 3 周期平均值 > 90%
	BE/CN 内存使用率	BE/CN 的内存使用率	serverless_starrocks_be_mem_util	连续 3 周期平均值 > 80%
	BE/CN 数据盘空间使用率	BE/CN 数据盘的空间使用率	serverless_starrocks_be_disks_utilization	连续 5 周期平均值 > 90%
	BE/CN 数据盘 IO 使用率	BE/CN 数据盘的 IO 使用率，即 IO 繁忙程度	serverless_starrocks_be_max_disk_io_util_percent	连续 10 周期平均值 > 90%
集群服务	Compaction Score	反映数据文件合并状态。分数越高，表示数据文件合并程度越低，会影响查询性能	serverless_starrocks_fe_max_table_compaction_score	连续 5 周期平均值 > 200
	BE Tablet 最大版本数	BE 中 Tablet 的最大版本本数，超过阈值时表明导入过于频繁	serverless_starrocks_be_max_tablet_rowset_num（暂无）	连续 5 周期平均值 > 400
	FE Checkpoint 状态	FE BDB 元数据 Log 个数，若超过阈值需要排查日志中的错误信息	serverless_starrocks_fe_meta_log_count（暂无）	连续 5 周期平均值 > 80000
业务场景	事务失败率	按业务场景设定事务失败率阈值	serverless_starrocks_fe_txn_failed_percent（暂无）	连续 5 周期平均值 > 5%
	运行事务数	运行中的导入事务数超阈值表明可能存在导入异常	serverless_starrocks_fe_txn_running（暂无）	连续 3 周期平均值 > 800
	DB Lock 时长	较长时间的 DB Lock 可能影响读写耗时	serverless_starrocks_slow_db_lock_time（暂无）	连续 1 周期平均值 > 60s
	查询延迟 (P99)	0.99 分位的查询耗时	serverless_starrocks_fe_query_latency_ms_p99	连续 3 周期平均值 > 5000ms
	每分钟慢查询数量	按业务场景设定每分钟慢查询数量阈值	serverless_starrocks_fe_slow_query_increase	连续 1 周期平均值 > 100
	每分钟查询错误数	按业务场景设定每分钟查询错误数量阈值	serverless_starrocks_fe_query_error_increase	连续 1 周期平均值 > 100
	每分钟 MV 刷新失败任务数	按业务场景设定每分钟刷新任务失败数阈值	serverless_starrocks_fe_mv_refresh_total_failed_jobs_increase（暂无）	连续 1 周期平均值 > 5

通过云监控创建自定义告警规则

此方式允许您完全自定义监控维度、判断逻辑和通知策略。

1、配置告警

进入告警设置页面。
1. 登录E-MapReduce控制台。
2. 在左侧导航栏，选择EMR Serverless > StarRocks。
3. 在实例列表页面，单击目标实例ID。
4. 单击监控告警。
5. 单击左侧的告警设置。
在告警设置页面，单击报警规则设置。
跳转到云监控页面，可以对当前的报警规则执行修改、删除和禁用等操作，详情请参见管理报警规则。

创建报警规则。

在报警规则页面，单击创建报警规则。

在创建报警规则面板，配置以下信息，单击确认。

参数	说明
产品	选择E-MapReduce（全托管starrocks）。
资源范围	选择实例。
关联资源	单击添加实例，选择已有的StarRocks实例。
规则描述	选择添加规则 > 简单指标，设置规则名称，选择监控指标和维度，配置阈值规则，然后单击确定。

2、接收告警

在收到查询耗时超阈值的监控告警后，请登录控制台排查问题。

3、监控排查

在监控告警的实例页面，查看概况区域，以确认是否存在问题。
查看Query区域，发现查询耗时异常增长。
在监控告警的计算组页面，查看BE监控图标。
- 查看BE CPU，发现负载处于正常范围内。
- 查看BE Mem状态，发现各项内存指标基本正常，无明显波动。
- 查看BE Disk IO，发现吞吐量已达到瓶颈，并与问题曲线呈现相似趋势，推测查询耗时增加的直接原因是存在大查询。