Paimon流式湖仓架构方案-实时计算 Flink版(Flink)-阿里云帮助中心

Apache Paimon是一种流批统一的数据湖存储格式，结合Flink及Spark构建流批处理的实时湖仓一体架构。Paimon创新地将湖格式与LSM技术结合起来，给数据湖带来了实时流更新以及完整的流处理能力。借助实时计算Flink版与Apache Paimon，可以快速地在云端OSS上构建数据湖存储服务。

Apache Paimon提供以下核心能力：

实时入湖能力增强：实时计算Flink版提供了丰富的入湖方式，支持自动同步Schema变更，允许快速将包括MySQL在内的多种数据库系统的实时变化同步至数据湖，在千万级数据规模下也能保持高效率与低延迟。
湖上流批一体处理：Paimon结合Flink提供了完整的流处理能力，结合Spark提供了完整的批处理能力。基于统一的数据湖存储，提供数据口径一致的流批一体处理，提高易用性并降低成本。
全面生态集成拓展：Paimon与众多计算紧密集成，实时计算Flink版、E-MapReduce（Spark、StarRocks、Hive或Trino）、MaxCompute都与Paimon有着较为完善的集成度，统一存储，计算无边界。
湖仓存储格式革新：Paimon在流批技术处理的基础上，提出Deletion Vectors和索引来增强查询性能，在分钟级时效性基础上满足流、批、OLAP等场景的全方位支持。

更多信息请参见Apache Paimon。

使用指南

初次使用

如果您想要快速开始体验Paimon，详情请参见Paimon快速开始：基本功能。
如果您需要根据主键更新数据，请使用Paimon主键表。如果您没有更新数据的需求，仅需要将无主键的数据导入Paimon表，请使用Paimon Append Only表（非主键表）。
如果您想要了解Paimon的时效性与一致性，详情请参见Paimon的时效性与一致性。
如果您想要了解利用Flink+Paimon构建流式湖仓的方法，详情请参见Paimon+StarRocks流式湖仓构建。

创建Paimon Catalog

Paimon Catalog可以方便地管理同一个目录下的所有Paimon表，并与其它阿里云产品连通。我们支持通过Paimon Catalog创建并操作Paimon表。

如果您想要创建并使用Paimon Catalog，详情请参见管理Paimon Catalog。
如果您想要将Paimon表的元数据同步至数据湖构建DLF，详情请参见创建Paimon DLF Catalog。
如果您想要在云原生大数据计算服务MaxCompute中同步创建Paimon外表，以便后续从MaxCompute中对Paimon表进行查询，详情请参见创建Paimon MaxCompute Catalog。
如果您想要同时将Paimon表的元数据同步至DLF，并在MaxCompute中创建Paimon外表，详情请参见创建Paimon Sync Catalog。

创建Paimon表

如果您想要在Paimon Catalog中创建Paimon表，详情请参见管理Paimon表。
如果您想要利用CREATE TABLE AS（CTAS）语句或CREATE DATABASE AS（CDAS）语句，从MySQL、消息队列Kafka等数据源将表同步到Paimon Catalog中，详情请参见通过CREATE TABLE AS（CTAS）语句或CREATE DATABASE AS（CDAS）语句创建表。

向Paimon表写入数据

如果您想要往Paimon表写入数据或更新数据，详情请参见向Paimon表写入数据。
如果您想要在Paimon表中进行数据的打宽和聚合等操作，详情请参见数据合并机制。
如果您想要覆写Paimon表的分区，或覆写整张Paimon表，详情请参见通过INSERT OVERWRITE语句覆写数据。
如果您想要从Paimon表中删除数据，详情请参见通过DELETE语句删除数据。
如果您想要删除Paimon表的部分分区，详情请参见修改表结构。

从Paimon表消费数据

如果您想要从Paimon表中查询或消费数据，详情请参见从Paimon表消费数据。如果您想要对Paimon主键表进行流式消费，请先了解变更数据产生机制。
如果您想要从指定位点开始流式消费Paimon表，详情请参见从指定位点消费Paimon表。
如果您想保存Paimon表的消费进度，或防止正在被流式消费的快照文件因过期被删除，详情请参见指定Consumer ID。
如果您想要利用批作业查询Paimon表过去的状态，详情请参见Batch Time Travel。

Paimon表的维护

如果您想要了解Paimon的常见问题，详情请参见连接器。
如果您想要了解读写Paimon表的常见优化，详情请参见Paimon性能优化。
如果您想要查询Paimon表目前有哪些分区，文件总数是多少等数据，详情请参见Paimon系统表。
如果您想要修改Paimon Catalog表结构，例如增加一列，或修改列名等，详情请参见修改表结构。
如果您想要删除Paimon Catalog表，详情请参见删除Paimon Catalog表。
如果您想要调整Paimon的分桶数量，详情请参见调整固定分桶表的分桶数量。
如果您想要清理表目录下的废弃文件，详情请参见清理过期数据。