2024-12-20版本

本文为您介绍2024年12月20日发布的实时计算Flink版的重大功能变更。

重要

本次升级计划在全网分步骤完成灰度,如果您不能使用相关新功能,说明您的账号暂未完成灰度。如果您需要尽快升级,请提交工单告知我们,我们将结合实际情况进行安排。

概述

本次发布为实时计算Flink版产品平台功能升级,我们正式推出物化表功能,旨在简化批处理和流处理数据管道,提供一致的开发体验。

业务层面对复杂的市场环境需要依靠数据进行决策判断,如何为业务层提供准确的数据就成为数据团队需要思考的最重要的任务。不同的业务对数据的要求也不一样:

  • 风控场景对数据时效性要求高,通常需要秒级到毫秒级。

  • 用户画像、实时推荐等场景通常分钟级即可满足需求。

  • BI报表、历史数据同环比分析等场景实效性较低,通常天级数据即可满足需求。

在传统数据仓库的架构下为了支持业务需求形成了Kappa和Lambda两套经典的架构,尽管都能在一定程度上解决业务需求,但其各自的缺点也十分明显,缺少一个能满足不同业务时效性要求的一体化架构。

Flink作为流批一体的计算引擎,致力于提供一套完整的技术方案来解决业务对数据不同时效性的要求。因此,我们在支持流批一体存储的Apache Paimon基础上提供了物化表能力。物化表使用声明式的SQL,通过对表数据新鲜度的定义代替传统的流批描述,您仅需要声明数据需要刷新的频次,即可实现对数据的不同周期的刷新,具有降低ETL复杂度、实现作业流批的无缝切换、提供级联更新能力、显著提高物化表的数据更新性能等优势。适合在Lambda架构造成数据口径对齐难、离线BI报表需要实时统计、实时大屏数据需要离线数据修正等场景快速落地物化表。

image

通过Flink物化表,您可以在数据湖上构建流批一体的计算能力,从而搭建一套新的数据开发范式,通过数据层、元数据层,计算层的统一,解决您在原有架构下,数据多份存储、数据口径对齐复杂、任务需要在不同引擎开发的痛点,实现真正的流批一体。

相关文档

文档

详情

物化表管理

了解什么是物化表,以及物化表优势、适用场景等。

创建及使用物化表

了解如何创建物化表,以及进行历史数据回刷、修改新鲜度、查看物化表血缘关系。

物化表快速入门(构建流批一体湖仓)

了解如何基于Paimon和物化表,快速构建流批一体的湖仓分析处理链路,以及通过修改表数据新鲜度,完成由批到流的切换,实现数据实时更新。