基于Paimon的Streaming Lakehouse方案

更新时间:2024-05-16 01:34:32

Apache Paimon是一种流批统一的数据湖存储格式,结合FlinkSpark构建流批处理的实时湖仓一体架构。Paimon创新地将湖格式与LSM技术结合起来,给数据湖带来了实时流更新以及完整的流处理能力。借助实时计算Flink版与Apache Paimon,可以快速地在云端OSS上构建数据湖存储服务。

Apache Paimon提供以下核心能力:

  • 实时入湖能力增强:实时计算Flink版提供了丰富的入湖方式,支持自动同步Schema变更,允许快速将包括MySQL在内的多种数据库系统的实时变化同步至数据湖,在千万级数据规模下也能保持高效率与低延迟。

  • 湖上流批一体处理:Paimon结合Flink提供了完整的流处理能力,结合Spark提供了完整的批处理能力。基于统一的数据湖存储,提供数据口径一致的流批一体处理,提高易用性并降低成本。

  • 全面生态集成拓展:Paimon与众多计算紧密集成,实时计算Flink版、E-MapReduce(Spark、StarRocks、HiveTrino)、MaxCompute都与Paimon有着较为完善的集成度,统一存储,计算无边界。

  • 湖仓存储格式革新:Paimon在流批技术处理的基础上,提出Deletion Vectors和索引来增强查询性能,在分钟级时效性基础上满足流、批、OLAP等场景的全方位支持。

更多信息请参见Apache Paimon

使用指南

初次使用

创建Paimon Catalog

Paimon Catalog可以方便地管理同一个目录下的所有Paimon表,并与其它阿里云产品连通。我们支持通过Paimon Catalog创建并操作Paimon表。

创建Paimon

Paimon表写入数据

Paimon表消费数据

Paimon表的维护

  • 本页导读 (1)
  • 使用指南
  • 初次使用
  • 创建Paimon Catalog
  • 创建Paimon表
  • 向Paimon表写入数据
  • 从Paimon表消费数据
  • Paimon表的维护

点击开启售前

在线咨询服务