Paimon概述

Apache Paimon是一种流批统一的湖存储格式,支持高吞吐的写入和低延迟的查询。目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析。

目前Apache Paimon提供以下核心能力:

  • 基于HDFS或者对象存储构建低成本的轻量级数据湖存储服务。

  • 支持在流模式与批模式下读写大规模数据集。

  • 支持分钟级到秒级数据新鲜度的批查询和OLAP查询。

  • 支持消费与产生增量数据,可作为传统数仓与流式数仓的各级存储。

  • 支持预聚合数据,降低存储成本与下游计算压力。

  • 支持历史版本回溯。

  • 支持高效的数据过滤。

  • 支持表结构变更。

更多信息,请参见Apache Paimon