基于Paimon的Streaming Lakehouse方案
Apache Paimon是一种流批统一的数据湖存储格式,结合Flink及Spark构建流批处理的实时湖仓一体架构。Paimon创新地将湖格式与LSM技术结合起来,给数据湖带来了实时流更新以及完整的流处理能力。借助实时计算Flink版与Apache Paimon,可以快速地在云端OSS上构建数据湖存储服务。
Apache Paimon提供以下核心能力:
实时入湖能力增强:实时计算Flink版提供了丰富的入湖方式,支持自动同步Schema变更,允许快速将包括MySQL在内的多种数据库系统的实时变化同步至数据湖,在千万级数据规模下也能保持高效率与低延迟。
湖上流批一体处理:Paimon结合Flink提供了完整的流处理能力,结合Spark提供了完整的批处理能力。基于统一的数据湖存储,提供数据口径一致的流批一体处理,提高易用性并降低成本。
全面生态集成拓展:Paimon与众多计算紧密集成,实时计算Flink版、E-MapReduce(Spark、StarRocks、Hive或Trino)、MaxCompute都与Paimon有着较为完善的集成度,统一存储,计算无边界。
湖仓存储格式革新:Paimon在流批技术处理的基础上,提出Deletion Vectors和索引来增强查询性能,在分钟级时效性基础上满足流、批、OLAP等场景的全方位支持。
更多信息请参见Apache Paimon。
使用指南
初次使用
如果您想要快速开始体验Paimon,详情请参见Paimon快速开始:基本功能。
如果您需要根据主键更新数据,请使用Paimon主键表。如果您没有更新数据的需求,仅需要将无主键的数据导入Paimon表,请使用Paimon Append Only表(非主键表)。
如果您想要了解Paimon的时效性与一致性,详情请参见Paimon的时效性与一致性。
如果您想要了解利用Flink+Paimon构建流式湖仓的方法,详情请参见基于Flink+Paimon搭建流式湖仓。
创建Paimon Catalog
Paimon Catalog可以方便地管理同一个目录下的所有Paimon表,并与其它阿里云产品连通。我们支持通过Paimon Catalog创建并操作Paimon表。
如果您想要创建并使用Paimon Catalog,详情请参见管理Paimon Catalog。
如果您想要将Paimon表的元数据同步至数据湖构建DLF,详情请参见管理Paimon Catalog。
如果您想要在云原生大数据计算服务MaxCompute中同步创建Paimon外表,以便后续从MaxCompute中对Paimon表进行查询,详情请参见管理Paimon Catalog。
如果您想要同时将Paimon表的元数据同步至DLF,并在MaxCompute中创建Paimon外表,详情请参见管理Paimon Catalog。
创建Paimon表
如果您想要在Paimon Catalog中创建Paimon表,详情请参见使用Paimon Catalog。
如果您想要利用CREATE TABLE AS(CTAS)语句或CREATE DATABASE AS(CDAS)语句,从MySQL、消息队列Kafka等数据源将表同步到Paimon Catalog中,详情请参见通过CREATE TABLE AS(CTAS)语句或REATE DATABASE AS(CDAS)语句创建表。
向Paimon表写入数据
如果您想要往Paimon表写入数据或更新数据,详情请参见向Paimon表写入数据。
如果您想要在Paimon表中进行数据的打宽和聚合等操作,详情请参见数据合并机制。
如果您想要覆写Paimon表的分区,或覆写整张Paimon表,详情请参见通过INSERT OVERWRITE语句覆写数据。
如果您想要从Paimon表中删除数据或部分分区,详情请参见通过DELETE语句删除数据。
如果您想要删除Paimon表的部分分区,详情请参见管理Paimon Catalog。
从Paimon表消费数据
如果您想要从Paimon表中查询或消费数据,详情请参见从Paimon表消费数据。如果您想要对Paimon主键表进行流式消费,请先了解变更数据产生机制。
如果您想要从指定位点开始流式消费Paimon表,详情请参见从指定位点消费Paimon表。
如果您想保存Paimon表的消费进度,或防止正在被流式消费的快照文件因过期被删除,详情请参见指定Consumer ID。
如果您想要利用批作业查询Paimon表过去的状态,详情请参见Batch Time Travel。
Paimon表的维护
如果您想要了解Paimon的常见问题,详情请参见上下游存储。
如果您想要了解读写Paimon表的常见优化,详情请参见Paimon性能优化。
如果您想要查询Paimon表目前有哪些分区,文件总数是多少等数据,详情请参见Paimon系统表。
如果您想要修改Paimon Catalog表结构,例如增加一列,或修改列名等,详情请参见管理Paimon Catalog。
如果您想要删除Paimon Catalog表,详情请参见删除Paimon Catalog表。
如果您想要调整Paimon的分桶数量,详情请参见调整固定分桶表的分桶数量。
如果您想要清理表目录下的废弃文件,详情请参见清理过期数据。