Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了更高抽象层的API以便您编写分布式任务。
背景信息
EMR Flink完全兼容开源Flink,相关内容请参见社区文档。例如:
使用场景
Flink广泛应用于大数据实时化的场景,本文从技术领域和企业应用场景进行介绍。
技术领域
从技术领域的角度,Flink主要用于以下场景:
实时ETL(Extract-transform-load)和数据流
实时ETL和数据流的目的是实时地把数据从A点投递到B点。在投递的过程中可能添加数据清洗和集成的工作,例如实时构建搜索系统的索引和实时数仓中的ETL过程等。
实时数据分析
实时数据分析指的是根据业务目标,从原始数据中抽取对应信息并整合的过程。例如,查看每天销量前10的商品、仓库平均周转时间、文档平均单击率和推送打开率等。实时数据分析则是上述过程的实时化,通常在终端体现为实时报表或实时大屏。
事件驱动应用
事件驱动应用是对一系列订阅事件进行处理或作出响应的系统。事件驱动应用通常需要依赖内部状态,例如欺诈检测、风控系统、运维异常检测系统等。当您的行为触发某些风险控制点时,系统会捕获这个事件,并根据您当前和之前的行为进行分析,决定是否对您进行风险控制。
企业应用
从企业应用的角度,Flink主要用于以下场景:
业务部门:实时风控、实时推荐和搜索引擎的实时索引构建等。
数据部门:实时数仓、实时报表和实时大屏等。
运维部门:实时监控、实时异常检测和预警以及全链路Debug等。
文档内容是否对您有帮助?