文档

湖格式管理

本文主要介绍湖格式管理中自动化湖管理策略。

功能介绍

湖格式管理主要提供自动化的湖格式优化策略,目前包括的策略如下:

策略

所属类型

默认阈值

描述

AutoOptimizeByCommitVersion

Optimize

17

每间隔固定的版本,触发Optimize任务

AutoVacuumByCommitVersion

Clean

13

每间隔固定的版本,触发过期文件的Clean任务

说明
  • 目前仅支持Delta Lake数据湖格式,更多数据湖格式正在研发中。

  • 目前该功能公测中,暂不收费。

场景说明

  1. 部分场景下(如Streaming)写入湖格式,会生成很多小文件,影响后续的查询效率。

  2. 湖格式表具有多版本/快照,数据目录下存在历史版本的过期数据,如不及时删除,浪费存储资源。

操作步骤

查看优化策略

  1. 打开数据湖构建控制台

  2. 点击菜单湖管理-湖格式管理

  3. 查看优化策略列表,如下图所示

image

设置优化策略阈值

  1. 在优化策略列表页,点击设置阈值,可以为策略设置执行的阈值,满足阈值后,将会自动执行优化策略。

image

禁用优化策略

  1. 在优化策略列表页,如果该策略已启用,此时点击禁用,可以关闭优化策略。

image

启用优化策略

  1. 在优化策略列表页,如果该策略已禁用,点击启用,可以启用优化策略。

image
  • 本页导读 (0)
文档反馈