湖格式管理

本文主要介绍湖格式管理中的自动化湖管理策略。

功能介绍

湖格式管理主要提供自动化的湖格式优化策略,目前包括的策略如下。

策略

所属类型

默认阈值

描述

AutoOptimizeByCommitVersion

OPTIMIZE

17

每间隔固定的版本,触发OPTIMIZE任务。

AutoVacuumByCommitVersion

CLEAN

13

每间隔固定的版本,触发过期文件的CLEAN任务。

AutoOptimizeWithZorderByCommitVersion

OPTIMIZE

17

每间隔固定的版本,触发带Zorder的湖表自动优化策略。

AutoOptimizeForFinishedPartition

OPTIMIZE

-

对已完成时间分区的自动优化策略。

AutoOptimizeForCurrentPartition

OPTIMIZE

17

对当前时间分区的自动优化策略。

HudiAutoExecuteCompaction

COMPACTION

-

Hudi自动Compaction策略。

说明

目前仅支持Delta Lake数据湖格式。

场景说明

  1. 部分场景下(如Streaming)写入湖格式,会生成很多小文件,影响后续的查询效率。

  2. 湖格式表具有多版本或快照,数据目录下存在历史版本的过期数据,如不及时删除,将会造成存储资源的浪费

操作步骤

查看优化策略

  1. 登录数据湖构建控制台

  2. 在左侧菜单栏,单击湖管理 > 湖格式管理,可查看优化策略列表。

设置优化策略阈值

  1. 在优化策略列表页,单击操作列的设置阈值

  2. 在弹出的对话框中,输入策略阈值,单击确定。满足阈值后,将会自动执行优化策略。

禁用优化策略

  1. 在优化策略列表页,如果该策略已启用,此时单击操作列的禁用

  2. 在弹出的对话框中,单击确定,可以关闭优化策略。

启用优化策略

  1. 在优化策略列表页,如果该策略已禁用,单击操作列的启用

  2. 在弹出的对话框中,单击确定,可以启用优化策略。