流存储Fluss集成阿里云云监控服务,提供集群级别与表级别的指标监控告警功能。通过配置告警规则,您可以及时发现并处理运行异常。本文介绍如何为Fluss集群配置监控告警。
前提条件
仅Fluss集群所属的阿里云主账号,或已被授予Fluss集群管理权限的RAM用户,才具备在云监控控制台配置告警的权限。
操作步骤
登录Fluss控制台,在左侧导航栏选择集群概览页。
单击快速入口的报警配置,进入云监控配置。
单击创建报警规则,配置相关参数。
参数
说明
产品
流存储Fluss。
资源范围
选择实例,报警规则作用于指定的流存储Fluss的集群。
关联资源
单击添加实例,选择目标地域下的Fluss集群实例。
规则描述
单击,监控指标分为集群粒度和表粒度。
说明选择表粒度,在维表部分需填写对应的数据库和表名称。不填写则监控该集群下所有的表。
告警指标说明
集群维度
指标 | 含义 |
集群写入流量 | 集群每秒写入的流量。 |
集群写出流量 | 集群每秒写出的流量。 |
CPU使用率 | 集群中所有Tablet Server节点当前CPU使用率的平均值。 |
内存使用率 | 集群中所有Tablet Server节点当前内存使用率的平均值。 |
本地盘使用率 | 集群中所有Tablet Server节点本地磁盘使用率的最大值。 |
表维度
指标 | 含义 |
表写入流量 | 表每秒写入的数据流量。 |
表写出流量 | 表每秒钟读出的数据流量。 |
入湖延时 | 湖流一体数据同步延迟。 |
推荐告警规则配置
场景 | 观测指标 | 规则配置建议 | 处理动作 |
存储数据异常 | 本地盘使用率 | 本地磁盘被写满会导致新数据无法写入。建议将告警阈值设置为80%。 | 收到告警后,请手动扩容本地磁盘,或增加Tablet Server节点的数量。 |
集群性能降级 | CPU使用率/ 内存使用率 |
|
|
读写状态监测 | 集群写入/写出流量 表写入/写出流量 | 监测流量的同比或环比变化,以此评估对业务的影响。 | 集群写入写出流量的暴增会导致集群CPU和内存使用的快速上涨,参考性能降级处理方案。 |
入湖延时监控 | 入湖延时 | Fluss数据同步至数据湖的延迟大小,直接决定数据湖的数据新鲜度。建议根据业务时效性要求设置阈值。 | 若延时过高,请提升Tiering Service的资源配置,降低延迟。 |