配置监控报警

更新时间:
复制为 MD 格式

流存储Fluss集成阿里云云监控服务,提供集群级别与表级别的指标监控告警功能。通过配置告警规则,您可以及时发现并处理运行异常。本文介绍如何为Fluss集群配置监控告警。

前提条件

Fluss集群所属的阿里云主账号,或已被授予Fluss集群管理权限的RAM用户,才具备在云监控控制台配置告警的权限。

操作步骤

  1. 登录Fluss控制台,在左侧导航栏选择集群概览页

  2. 单击快速入口报警配置,进入云监控配置。

  3. 单击创建报警规则,配置相关参数。

    参数

    说明

    产品

    流存储Fluss。

    资源范围

    选择实例,报警规则作用于指定的流存储Fluss的集群。

    关联资源

    单击添加实例,选择目标地域下的Fluss集群实例。

    规则描述

    单击添加规则 > 简单指标/组合指标,监控指标分为集群粒度和表粒度。

    说明

    选择表粒度,在维表部分需填写对应的数据库和表名称。不填写则监控该集群下所有的表。

告警指标说明

集群维度

指标

含义

集群写入流量

集群每秒写入的流量。

集群写出流量

集群每秒写出的流量。

CPU使用率

集群中所有Tablet Server节点当前CPU使用率的平均值。

内存使用率

集群中所有Tablet Server节点当前内存使用率的平均值。

本地盘使用率

集群中所有Tablet Server节点本地磁盘使用率的最大值。

表维度

指标

含义

表写入流量

表每秒写入的数据流量。

表写出流量

表每秒钟读出的数据流量。

入湖延时

湖流一体数据同步延迟。

推荐告警规则配置

场景

观测指标

规则配置建议

处理动作

存储数据异常

本地盘使用率

本地磁盘被写满会导致新数据无法写入。建议将告警阈值设置为80%。

收到告警后,请手动扩容本地磁盘,或增加Tablet Server节点的数量。

集群性能降级

CPU使用率/

内存使用率

  • 内存使用率超过80%存在OOM风险,可能导致节点宕机。

  • CPU使用率持续超过90%会导致读写性能下降。

  • 若为瞬时高峰,可评估并暂停部分非核心的读写作业。

  • 若长期处于高水位,需扩容Tablet Server节点。

读写状态监测

集群写入/写出流量

表写入/写出流量

监测流量的同比或环比变化,以此评估对业务的影响。

集群写入写出流量的暴增会导致集群CPU和内存使用的快速上涨,参考性能降级处理方案。

入湖延时监控

入湖延时

Fluss数据同步至数据湖的延迟大小,直接决定数据湖的数据新鲜度。建议根据业务时效性要求设置阈值。

若延时过高,请提升Tiering Service的资源配置,降低延迟。