DLF提供符合Apache Paimon REST Catalog标准的表管理API,其文件存储结构与开源社区完全兼容。这使得任何兼容Paimon的引擎和应用都能够轻松地在DLF中创建、更新、查询和删除。
Paimon Catalog中的主要数据层次结构如下:
Catalog:数据目录是元数据顶层逻辑实体,采用层级化结构组织元数据资源。适用于不同业务或不同用户间的元数据隔离与权限管控,以及湖数据存储和湖表运维管理等场景。
Database:数据库是元数据的逻辑分组方式,相较于Catalog提供了更精细化的数据组织与访问控制能力。不可指定路径,DLF会自动生成基于UUID的路径。
Format Table:格式表,只支持外表,需指定外部存储路径。外表是数据生命周期和文件布局使用其他方式管理的表,而不是DLF。目前格式表支持Parquet、ORC、CSV、JSON格式,支持分区,映射Hive表格式。
Paimon Table:只支持内表,不可指定路径,DLF会自动生成基于UUID的路径。DLF会管理内表的生命周期,内表的删除是逻辑删除,1天后数据文件才会被真正的删除。Paimon表支持定义主键(一般用于流更新场景),也支持不定义主键(一般用于批处理场景,或者流追加场景)。
View:持久化在DLF的视图,视图支持方言,您可以为不同的计算引擎配置不同的方言SQL。
Function:持久化在DLF的函数,函数目前支持Flink Jar(Java和Python)函数,也支持Java Lambda函数在Spark引擎上运行。
该文章对您有帮助吗?