全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
流计算

全链路流计算示意

更新时间:2017-06-07 13:26:11

不同于现有的离线/批量计算模型(和批量计算差异性在下一小节细述),流计算全链路整体上更加强调数据的实时性,包括数据实时采集数据实时计算数据实时集成。三大类数据的实时处理逻辑在全链路上保证了流式计算的低时延。全链路流计算示意图如下:

流计算示意图

  1. 数据采集 用户使用流式数据采集工具将数据流式且实时地采集并传输到大数据消息Pub/Sub系统,该系统将为下游流计算提供源源不断的事件源去触发流式计算作业的运行。

  2. 流式计算 流数据作为流计算的触发源驱动流计算运行。因此,一个流计算作业必须至少使用一个流数据作为源。一批进入的数据流将直接触发下游流计算的一次流式计算处理。

  3. 数据集成 流计算将计算的结果数据直接写入目的数据存储,这其中包括多种数据存储,包括数据存储系统、消息投递系统,甚至直接对接业务规则告警系统发出告警信息。不同于批量计算(例如阿里云MaxCompute或者开源Hadoop),流计算天生自带数据集成模块,可以将结果数据直接写入到目的数据存储。

  4. 数据消费 流计算一旦将结果数据投递到目的数据源后,后续的数据消费从系统划分来说,和流计算已经完全解耦。用户可以使用数据存储系统访问数据,使用消息投递系统进行信息接收,或者直接使用告警系统进行告警。

本文导读目录