文件访问

概述

Paimon 客户端提供了 Paimon 虚拟文件系统(PVFS: Paimon Virtual Storage 支持,使用户能够像操作普通文件系统一样,通过标准文件路径访问 DLF(Data Lake Formation)Catalog 中的表数据。

实现原理

PVFS 将 Paimon 表的元数据与存储结构抽象为统一的文件路径格式,例如:pvfs://<catalog_name>/<database_name>/<table_name>/...。通过该路径,您可以直接读取表的快照、数据文件、元数据等底层内容,而无需依赖完整的计算引擎(如 Flink 或 Spark)。

SDK支持

目前,PVFS 已提供以下两种 SDK 支持:

  • Java SDK:实现了 Hadoop FileSystem 接口,可无缝集成到 Hadoop 生态(如 Hive、Spark、Presto)中;

  • Python SDK:基于 fsspec(File System Specification)标准,兼容 Dask、Pandas、PyArrow 等主流 Python 数据工具。

通过 PVFS,开发者和数据工程师可以在本地或脚本环境中便捷地探索、调试和操作 Paimon 表,显著提升数据湖开发与运维效率。

权限控制

PVFS文件系统使用DLF统一的权限控制策略,以表粒度控制文件的读写权限,详情请参见快速配置权限