引擎对接-数据湖构建(DLF)-阿里云帮助中心

DLF 作为阿里云统一的数据湖底座，旨在无缝集成主流大数据计算引擎，为实时湖仓、离线湖仓及 OLAP 分析等多样化业务场景提供强大支持。目前，DLF 已与实时计算 Flink 版、EMR Serverless Spark、EMR Serverless StarRocks 和 EMR on ECS 等核心引擎深度对接，并持续扩展其生态兼容性。

支持的引擎范围

下表列出了各对接方式支持的引擎和工具：

对接方式	支持的引擎/工具
Paimon REST	MaxCompute 实时计算Flink版：Flink SQL 实时计算Flink版：Flink CDC 实时计算Flink版：Flink DataStream PyPaimon Hologres DataWorks EMR Serverless StarRocks EMR Serverless Spark EMR on ECS Spark EMR on ECS Trino
Iceberg REST	EMR Serverless Spark 实时计算Flink版：Flink SQL 实时计算Flink版：Flink CDC EMR Serverless StarRocks PyIceberg EMR on ECS Spark Java API Daft
文件访问	EMR on ECS EMR Serverless Spark
Lance	Python Daft

说明

DLF 暂不支持自建 Spark 等非阿里云引擎直接对接。如需使用 Spark 引擎访问 DLF，请选择 EMR Serverless Spark 或 EMR on ECS。

对接方式

为了满足不同引擎和用户在访问数据时的灵活性需求，DLF 提供了以下四种标准化的对接方式：

Paimon REST：面向基于 Apache Paimon 构建的计算引擎，提供符合 Paimon 社区规范的 RESTful 元数据服务接口，支持表结构管理、快照查询等核心操作。
Iceberg REST：面向基于 Apache Iceberg 构建的计算引擎，提供符合 Iceberg 社区规范的 RESTful 元数据服务接口，支持表结构管理、快照查询等核心操作。
文件访问：通过 Paimon 虚拟文件系统（PVFS），将表数据抽象为标准文件路径，直接读取底层数据文件与元数据，无需依赖完整计算引擎，适用于脚本化探索、调试及轻量级数据处理。
Lance：面向 Lance 格式数据，通过 Python SDK（lance-dlf）连接 DLF Catalog，支持 Lance 表的读写操作，可配合 Daft DataFrame 引擎进行查询过滤和批量计算。

通过这四种方式，您可以根据自身引擎的技术栈和架构偏好，选择最适合的接入路径，实现与 DLF 数据湖的高效协同。