构建流批统一数据湖存储-Paimon-开源大数据平台 E-MapReduce-阿里云

Apache Paimon是一种流批统一的湖存储格式，支持高吞吐的写入和低延迟的查询。目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析。

目前Apache Paimon提供以下核心能力：

基于HDFS或者对象存储构建低成本的轻量级数据湖存储服务。
支持在流模式与批模式下读写大规模数据集。
支持分钟级到秒级数据新鲜度的批查询和OLAP查询。
支持消费与产生增量数据，可作为传统数仓与流式数仓的各级存储。
支持预聚合数据，降低存储成本与下游计算压力。
支持历史版本回溯。
支持高效的数据过滤。
支持表结构变更。

更多信息，请参见Apache Paimon。