湖格式管理
本文主要介绍湖格式管理中自动化湖管理策略。
功能介绍
湖格式管理主要提供自动化的湖格式优化策略,目前包括的策略如下:
策略 | 所属类型 | 默认阈值 | 描述 |
AutoOptimizeByCommitVersion | Optimize | 17 | 每间隔固定的版本,触发Optimize任务 |
AutoVacuumByCommitVersion | Clean | 13 | 每间隔固定的版本,触发过期文件的Clean任务 |
说明
目前仅支持Delta Lake数据湖格式,更多数据湖格式正在研发中。
目前该功能公测中,暂不收费。
场景说明
部分场景下(如Streaming)写入湖格式,会生成很多小文件,影响后续的查询效率。
湖格式表具有多版本/快照,数据目录下存在历史版本的过期数据,如不及时删除,浪费存储资源。
操作步骤
查看优化策略
打开数据湖构建控制台
点击菜单湖管理-湖格式管理
查看优化策略列表,如下图所示

设置优化策略阈值
在优化策略列表页,点击设置阈值,可以为策略设置执行的阈值,满足阈值后,将会自动执行优化策略。

禁用优化策略
在优化策略列表页,如果该策略已启用,此时点击禁用,可以关闭优化策略。

启用优化策略
在优化策略列表页,如果该策略已禁用,点击启用,可以启用优化策略。
