什么是阿里云流存储Fluss版

阿里云流存储Fluss版是基于 Apache Fluss (Incubating) 打造的高性能列式流存储系统,具备毫秒级读写响应、实时数据更新及部分字段更新能力。同时Fluss 提供 CDC(变更数据捕获)日志订阅功能,保障全量与增量数据的一致性读取,满足实时数据消费场景需求。

前置概念

阅读本文前,可以按需了解基础概念:

什么是Apache Fluss (Incubating)

什么是Apache Paimon

什么是数据湖

产品概述

阿里云流存储Fluss版的“湖流一体”架构,实现与Apache Paimon等数据湖格式的无缝对接,在确保数据高时效性的基础上,显著降低实时数仓的构建与运维成本。通过统一的数据流与湖仓协同机制,Fluss助力企业打破数据孤岛,加速湖上数据价值的深度挖掘与高效共享。

能力特点

说明

毫秒级流读流写

Fluss 支持低延迟的流式读写能力,结合 Apache Flink 可构建高吞吐、低延迟的实时数仓,适用于各类实时数据处理场景。

流式查询下推

Fluss 底层采用Apache Arrow列存格式,支持列裁剪、分区下推、条件下推、聚合下推等查询加速能力,显著降低 I/O 开销,查询性能提升可达 10 倍。

CDC日志订阅与全增量一致性

Fluss 内置变更数据捕获(CDC)机制,支持 Binlog 实时订阅,保障全量与增量数据的一致性读取。在实时数仓中可实现去重更新、分层治理与端到端低延迟的数据加工。

部分列更新

Fluss 支持主键粒度的部分列更新,实现多流数据的实时拼接,避免传统双流 Join 的大状态问题。即使在 Partial Update 场景下,仍可生成完整 Binlog,确保全链路实时化。

Delta Join

基于 Fluss 的流读能力和索引点查能力,构建的 Delta Join 方案可替代传统双流 Join,显著降低内存和 CPU 使用率。实测生产环境下,Flink 内存与 CPU 消耗下降超 86%,Checkpoint 耗时从 90s 缩短至 1s。

二级索引与 KV 点查

Fluss 支持二级索引构建,提供高效的 Key-Value 点查能力,用户可直接对 DWD/DWS 层数据进行排查与验证,无需导出至其他系统。

冷热数据分层与湖流一体化

Fluss 支持冷热数据自动分层存储,兼顾性能与成本。同时无缝对接 Apache Paimon 等湖格式,实现湖流数据统一管理与共享,提升实时数仓性价比。

产品架构

image

1. 湖流一体架构

特点:
  • 以数据湖为底层存储,实现历史数据的低成本持久化,同时依托湖生态提供高效的批式查询与分析能力。

  • 内置流式入湖能力,支持流数据实时写入并立即可见,无需依赖外部数据集成工具。

  • 支持数据在流存储与数据湖之间的智能分层管理,查询与消费时自动合并多层数据,提供统一访问视图。

  • 采用开源开放架构,兼容主流湖格式(如 DLF、Paimon、Iceberg、Lance)和查询引擎(如 Flink、Spark、StarRocks),支持灵活扩展。

优势:
  • 流批一体架构 :统一支持流处理与批处理,降低系统架构复杂度与运维成本。

  • 数据统一存储 :流与湖共享同一份数据副本,避免重复存储,显著降低总体存储成本。

  • 统一数据治理 :提供统一的权限控制与元数据管理,简化数据治理流程,保障数据安全与一致性。

2. 分布式集群架构

结构:
  • 每个 Fluss Cluster 包含一个 Coordinator 和多个 TabletServer 节点。

  • Coordinator 负责元数据管理、任务调度和全局协调。

  • TabletServer 节点负责实际的数据存储、计算和查询执行。

优势:
  • 高可用性:通过多副本备份机制和分布式节点设计,确保数据的高可靠性和高可用性。

  • 可扩展性:支持按需增加 TabletServer 或集群,满足业务增长需求。

  • 冷存储层用于长期归档,减少热数据存储成本

3. 强大的多能力支撑

核心能力
  • 湖流一体

    实现数据湖与流处理的深度融合,支持实时数据处理和历史数据分析。

  • 流式查询下推

    将列裁剪、分区裁剪等查询逻辑下推到 TabletServer 层执行,减少数据传输,提升流式查询性能。

  • Delta Join

    支持流式数据与静态数据的高效关联分析,适用于实时推荐、用户画像等场景。

  • 实时更新与点查

    支持百万级QPS实时更新、部分列更新、维表点查,支持实时生成 CDC 变更日志,无缝集成 Flink 构建全链路实时数仓。

基础能力
  • 监控报警

    实时监控系统运行状态,提供告警机制,确保问题及时发现和处理。

  • 库表管理

    支持对数据库和表的创建、修改、删除等操作,方便数据管理和权限控制。

  • 同城容灾

    提供同城备份和容灾能力,确保数据安全性和业务连续性。

  • 自动升级

    支持在线升级,减少停机时间,保障服务的持续可用性。

产品优势

流批一体秒级湖仓方案

image

Fluss 的设计理念旨在帮助企业解决实时数据处理中的痛点,提升数据价值挖掘效率,具体体现在以下方面:

  • 实时性与低延迟

    Fluss 支持毫秒级读写,结合 Flink 等流式计算引擎,构建高吞吐、低延迟的实时数仓,满足金融交易、电商推荐等对时效性要求极高的场景。

  • 成本优化

    冷热分层存储策略显著降低存储成本,同时湖流一体架构减少了数据冗余与重复计算,整体 TCO 最优。

  • 数据分析效率提升

    查询下推、Delta Join 等技术大幅提高查询性能,缩短数据加工链路,加速业务洞察。

  • 数据治理与安全性

    统一的数据管理平台,支持多租户隔离、权限管控与操作审计,确保数据安全合规。

  • 灵活扩展性

    支持按需弹性伸缩,轻松应对业务高峰期或突发流量,无需担心资源瓶颈。