文档

使用须知

更新时间:

目前DLF对Paimon Catalog提供以下存储优化功能,使用前需要先开通存储优化服务,并添加计算资源。

功能介绍

Compaction

Compaction功能通过合并小文件为较大文件,减少文件数量,进而降低元数据管理开销和查询时的文件查找成本,提升查询性能,增强Paimon表的查询效率。

过期快照清理

为了保证快照文件对应的历史状态可以被正常读取,只要快照文件存在,该快照文件指向的历史数据文件就不能被删除。随着快照文件不断产生,历史数据占用的存储空间也将逐渐增加。因此需要淘汰不再使用的快照文件,以释放它们所指向的、不再活跃的历史数据空间,从而实现存储资源的有效管理与释放。

过期分区清理

业务上可能只关心最近一段时间内的数据,在这种情况下可以按时间对数据进行分区,并设置分区过期时间以自动删除过于久远的历史分区,从而释放存储空间。

废弃文件清理

由于作业报错重启等原因,Paimon表目录下可能会遗留一些未被提交的临时文件,这些废弃文件无法通过快照过期删除,需要手动或周期性执行清理。

开通存储优化服务

  1. 登录数据湖构建控制台

  2. Catalogs列表页面,单击Catalog名称。

  3. 存储优化页签,单击策略旁的image开关。

  4. 如果之前未开通过存储优化服务,会弹出如下对话框,勾选使用须知,单击开通存储优化服务

    image

添加计算资源

  1. 登录数据湖构建控制台

  2. 在左侧菜单栏,单击系统配置,单击添加计算资源

  3. 在弹出的面板中,配置以下信息:

    • 名称:必选,计算资源名称。

    • 描述:可选,输入描述信息。

    • 资源类型:必选,目前仅支持阿里云实时计算Flink全托管版。首次使用Flink全托管版,需要授权DLF提交作业的权限。

    • 工作空间:必选,需要提前在Flink控制台创建。引擎版本须为VVR 8.0.9及以上。如未创建,详情请参见开通实时计算Flink版

    • 项目空间:必选,需要提前在Flink控制台创建。如未创建,详情请参见管理项目空间

  4. 单击连通性测试,测试通过后,单击确定,完成添加。