目前DLF对Paimon Catalog提供以下存储优化功能,使用前需要先开通存储优化服务,并添加计算资源。
功能介绍
Compaction
Compaction功能通过合并小文件为较大文件,减少文件数量,进而降低元数据管理开销和查询时的文件查找成本,提升查询性能,增强Paimon表的查询效率。
过期快照清理
为了保证快照文件对应的历史状态可以被正常读取,只要快照文件存在,该快照文件指向的历史数据文件就不能被删除。随着快照文件不断产生,历史数据占用的存储空间也将逐渐增加。因此需要淘汰不再使用的快照文件,以释放它们所指向的、不再活跃的历史数据空间,从而实现存储资源的有效管理与释放。
过期分区清理
业务上可能只关心最近一段时间内的数据,在这种情况下可以按时间对数据进行分区,并设置分区过期时间以自动删除过于久远的历史分区,从而释放存储空间。
废弃文件清理
由于作业报错重启等原因,Paimon表目录下可能会遗留一些未被提交的临时文件,这些废弃文件无法通过快照过期删除,需要手动或周期性执行清理。
开通存储优化服务
登录数据湖构建控制台。
在Catalog列表页面,单击Catalog名称。
在存储优化页签,单击策略旁的开关。
如果之前未开通过存储优化服务,会弹出如下对话框,勾选使用须知,单击开通存储优化服务。
添加计算资源
登录数据湖构建控制台。
在左侧菜单栏,单击系统配置,单击添加计算资源。
在弹出的面板中,配置以下信息:
名称:必选,计算资源名称。
描述:可选,输入描述信息。
资源类型:必选,目前仅支持阿里云实时计算Flink全托管版。首次使用Flink全托管版,需要授权DLF提交作业的权限。
工作空间:必选,需要提前在Flink控制台创建。引擎版本须为VVR 8.0.9及以上。如未创建,详情请参见开通实时计算Flink版。
项目空间:必选,需要提前在Flink控制台创建。如未创建,详情请参见管理项目空间。
单击连通性测试,测试通过后,单击确定,完成添加。