湖表优化功能监控

DLF 通过云监控提供了告警设置功能,通过对重要的监控指标设置报警规则,可以实时了解湖表优化的运行状况,及时处理潜在风险,保障湖表优化的稳定运行。

创建和管理报警规则

  1. 登录云监控控制台

  2. 在左侧导航栏,选择报警服务 > 报警规则

  3. 单击创建报警规则,配置相关参数。

    参数

    说明

    产品

    数据湖构建(DLF)

    资源范围

    选择实例,报警规则作用于Catalog。

    关联资源

    单击添加实例,左上角选择目标地域,然后勾选需要监控的Catalog,单击确认

    规则描述

    单击添加规则 > 简单指标组合指标,进入设置规则描述面板。

云监控指标说明

  • Compaction延时_最新compact提交到最新非compact提交

    最新的compact提交的时间与最新的非compact提交时间的时间差。

  • Compaction延时_最早非compact提交

    根据最早未合并 Snapshot 的提交时间与当前系统时间计算出的时延。

  • Compaction延时_最早非compact文件

    根据最早未合并 Snapshot 的提交时间与当前系统时间计算出的时延。

    该指标可通过API获取表合并信息进行查看具体时间。
说明

这些指标仅适用于 Paimon 主键表,且必须开启存储优化开关,即设置write-only=true。DLF 全托管服务默认已开启此选项。

监控指标示意图

  • 待“Compact提交”基于最后一次非Compact Commit时间进行统计。

  • 待“Compact数据文件”基于Compact Job中最早Compact文件的创建时间进行统计。

    image

  • Compact已完成的情况下,延时指标数值为0。

    image

  • Commit频率较高时,“待Compact提交”可能偏小。

    image

告警方案示例与推荐

场景

告警配置方案

高频更新的主键表配置监控方案

监控指标:组合(满足之一报警)

  • Compaction延时_最早非compact提交:大于一定时间(s)告警

  • Compaction延时_最早非compact文件:大于一定时间(s)告警

监控维度:表级别

数据目录或者库级配置监控方案

监控指标:简单

  • Compaction延时_最早非compact提交:大于1次告警

监控维度:库级别或数据目录(不填写)

告警规则示例

参数

示例

规则名称

Compaction延迟告警

指标类型

组合指标

报警级别

警告(Warn)

多指标描述

Compaction延时_最早非compact提交:监控值 >= 600 s

Compaction延时_最早非compact文件:监控值 >= 600 s

选择维度

表级别

多指标关系

有一个满足条件就报警

报警阈值触发次数

连续一个周期(1个周期=1分钟)

image