本文档提供了实例和计算组的监控方法、云监控关键指标、告警配置方案以及运维示例,旨在帮助您有效监测和诊断系统性能。
监控实践
实例监控
该页面主要展示实例的整体运行情况,主要包括 Query、FE、资源组、物化视图、库表信息等监控信息。
请根据以下要点对实例进行监控和观察:
-
定期关注概况区域信息,以便迅速掌握运行状态。
-
各分组图表可根据需要进行查阅。
-
支持查看单个前端(FE)的监控情况。
-
通过快速选择时间范围,发现问题,然后缩小时间范围以查看异常指标。
计算组监控
该页面主要展示BE或CN的监控图表,主要包括Compaction、BE或CN、Cache、存储等监控信息。
请根据以下要点对实例进行监控和观察:
-
定期关注概况区域信息,以便迅速掌握运行状态。
-
重点关注CPU、MEM和磁盘水位,必要时进行资源升级或扩容。
-
其他监控分组可根据需求查阅。
-
支持查看单个BE或CN的监控情况。
-
通过快速选择时间范围,发现问题,然后缩小时间范围以查看异常指标。
告警实践
云监控指标
云监控页面提供了丰富的StarRocks监控指标,推荐优先使用以下指标。
|
指标类别 |
指标名称 |
监控指标 |
描述 |
|
可用性 |
FE节点状态探测 |
serverless_starrocks_fe_up |
请求节点 HTTP 接口的结果,1 表示请求成功,0 表示请求失败,可用于探测 FE 节点状态。 偶尔探测失败是正常的,仅需关注持续 10 分钟以上探测失败的情况。 |
|
BE/CN节点状态探测 |
serverless_starrocks_be_up |
请求节点 HTTP 接口的结果,1 表示请求成功,0 表示请求失败,可用于探测 BE/CN 节点状态。 可基于计算组配置告警。偶尔探测失败是正常的,仅需关注持续 10 分钟以上探测失败的情况。 |
|
|
BE/CN 存活率 |
serverless_starrocks_node_info_alive_percent |
由 FE 上报的全部 BE/CN 节点存活率(Alive 数量),无法基于计算组配置告警。 仅需关注持续 5 分钟以上存活率异常的情况。 |
|
|
负载 |
CPU 利用率 |
serverless_starrocks_fe_cpu_util serverless_starrocks_be_cpu_util |
节点的 CPU 利用率。 建议节点平均 CPU 利用率保持在 60%以下,按业务场景配置持续 N 分钟该指标超过 80%阈值告警。 |
|
MEM 利用率 |
serverless_starrocks_fe_jvm_heap_util serverless_starrocks_be_mem_util |
节点的内存利用率。 建议节点平均 Mem 利用率保持在 60%以下,按业务场景配置持续 N 分钟该指标超过 70%阈值告警。 |
|
|
磁盘使用率 |
serverless_starrocks_be_disks_utilization |
磁盘空间使用率。 对于存算一体实例,建议磁盘空间使用率超过 70%告警;对于存算分离实例,建议磁盘空间使用率超过 90%告警。 一般无需配置磁盘 IO 利用率的告警,主要关注磁盘空间使用率。 |
|
|
网络 |
serverless_starrocks_be_network_receive_bytes serverless_starrocks_be_network_send_bytes |
网络接收、发送的字节数。一般无需配置该告警。 |
|
|
serverless_starrocks_fe_connection_total |
FE 的总连接数量。一般无需配置该告警,若发现集群异常与连接数关联密切,可按需配置告警阈值。 |
||
|
查询 |
查询失败数 |
serverless_starrocks_fe_query_err_increase |
每分钟查询失败数。根据实际业务场景配置合适的告警阈值。 |
|
查询耗时统计 |
serverless_starrocks_fe_query_latency_ms_p75 serverless_starrocks_fe_query_latency_ms_p95 serverless_starrocks_fe_query_latency_ms_p99 |
查询百分位统计延迟,需要根据业务场景配置延迟阈值。 对于内表查询场景,建议配置持续 3 分钟超过 N 秒告警。根据查询频次选择合适的分位数,比如高频次场景使用 p99 指标。 |
|
|
慢查询数 |
serverless_starrocks_fe_slow_query_increase |
每分钟增长的慢查询数量。根据实际业务场景配置合适的告警阈值。 |
|
|
资源组查询耗时统计 |
serverless_starrocks_fe_query_resource_group_latency |
资源组维度查询耗时指标。根据实际业务场景配置合适的告警阈值。 |
|
|
集群状态 |
最大Compaction Score |
serverless_starrocks_fe_max_tablet_compaction_score |
通常,Compaction Score大于 1000 时就会报错,StarRocks 会报错 “Too many versions”,此时需要调低导入并发和导入频率。 建议配置 Score 大于 500 时告警,根据业务对性能的要求,可配置更低 Score 的阈值。 |
|
运行事务数量 |
serverless_starrocks_fe_txn_running |
各数据库运行的事务数。运行事务数过多或增长过快可能存在问题,建议配置大于 500 运行事务数告警。 |
|
|
慢数据库锁 |
serverless_starrocks_slow_db_lock_time |
慢数据库锁,包含读锁或写锁,建议在锁时长超过 15 分钟时告警。 |
|
|
物化视图 |
物化视图状态 |
serverless_starrocks_fe_mv_inactive_state |
物化视图的状态。有效值:
|
|
物化视图作业刷新失败数量 |
serverless_starrocks_fe_mv_refresh_total_failed_jobs_increase |
每分钟执行失败的物化视图刷新作业的数量。生产集群建议配置失败即告警。 |
|
|
物化视图等待作业数量 |
serverless_starrocks_fe_mv_refresh_pending_jobs |
当前等待执行的物化视图刷新作业数量。 |
运维示例
1、配置告警
-
进入告警设置页面。
-
在左侧导航栏,选择EMR Serverless > > StarRocks。
-
在创建实例页面,单击目标实例ID。
-
单击监控告警。
-
单击下方的告警设置。
-
在告警设置页面,单击报警规则设置。
跳转到云监控页面,可以对当前的报警规则执行修改、删除和禁用等操作,详情请参见管理报警规则。
-
创建报警规则。
-
在报警规则页面,单击创建报警规则。
-
在创建报警规则面板,配置以下信息,单击确认。
例如,选择 监控指标 为
serverless_starrocks_fe_query_latency_ms_p99,选择 维度 为podName,并配置多级阈值:电话+短信+邮件+WebHook 对应 15000 ms、短信+邮件+WebHook 对应 10000 ms、邮件+WebHook 对应 5000 ms。参数
说明
产品
选择E-MapReduce(全托管starrocks) 。
资源范围
选择实例 。
关联资源
单击添加实例 ,选择已有的StarRocks实例。
规则描述
选择 ,设置规则名称 ,选择监控指标 和 维度 ,配置阈值规则,然后单击确定 。
-
2、接收告警
在收到查询耗时超阈值的监控告警后,请登录控制台排查问题。
3、监控排查
-
在监控告警的实例页面,查看概况区域,以确认是否存在问题。
-
查看Query区域,发现查询耗时异常增长。
-
在监控告警的计算组页面,查看BE监控图标。
-
查看BE CPU,发现负载处于正常范围内。
-
查看BE Mem状态,发现各项内存指标基本正常,无明显波动。
-
查看BE Disk IO,发现吞吐量已达到瓶颈,并与问题曲线呈现相似趋势,推测查询耗时增加的直接原因是存在大查询。
-
4、实时诊断与问题定位
-
在健康诊断页面的实时诊断页签,使用鼠标拖动选择异常时间区间,然后单击诊断。
-
获取实时诊断结果,定位到具体的大查询任务。