作业开发地图导向概览。
理解上下游
上游(Source):数据来源系统,即从哪里读取数据。
示例:Kafka、MySQL CDC、Hologres、日志服务(如 SLS)等。
下游(Sink):数据输出目标,即处理后的结果写入何处。
示例:数据库(MySQL、PostgreSQL)、数据仓库(ClickHouse、Doris、StarRocks)、消息队列、数据湖(paimon/oss)等。
实时计算Flink支持 30+ 种上下游连接器,涵盖数据库、消息队列与数据湖等场景,实现数据链路的开箱即用与快速对接。详情请参见支持的连接器。
明确业务定位
作业类型 | 适用场景 |
Flink SQL | 实时 ETL,实时指标计算,多流 Join,实时数仓构建,构建湖仓的流批统一。 |
Flink CDC 数据摄入 | 数据库实时同步,数据迁移,多表自动同步。 |
DatastreamAPI | 复杂事件处理(CEP),高频外部调用,复杂窗口逻辑,自定义 Source/Sink。 |
作业开发
Flink SQL 快速实现 ETL、聚合、维表 Join。 | Flink CDC 数据摄入 数据库实时同步、多表批量接入。 | DatastreamAPI 需要 CEP、自定义状态、复杂逻辑。 |
典型的应用场景 | 查询与测试 | 进阶使用 |
多生态融合 | 运维与调优 | 常见问题处理 |
该文章对您有帮助吗?