全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
流计算

业务流程

更新时间:2017-06-07 13:26:11

在阿里云流计算使用前,对流式数据处理整体全链路有个简单认识可以极大方便用户梳理业务流程,制定相应的系统设计方案。下面将简单介绍下阿里云流计算全流程系统架构情况。

流计算流程图

  1. 数据采集 广义的实时数据采集指: 用户使用流式数据采集工具将数据流式且实时地采集并传输到大数据Pub/Sub系统,该系统将为下游流计算提供源源不断的事件源去触发流式计算作业的运行。阿里云大数据生态中提供了诸多针对不同场景领域的流式数据Pub/Sub系统,阿里云流计算天然集成上图中诸多Pub/Sub系统,以方便用户可以轻松集成各类流式数据存储系统。例如用户可以直接使用流计算对接SLS的LogHub系统,以做到快速集成并使用 ECS 日志。

  2. 流式计算 流数据作为流计算的触发源驱动流计算运行。因此,一个流计算作业必须至少使用一个流数据作为数据源头。同时,对于一些业务较为复杂的场景,流计算还支持和静态数据存储进行关联查询。例如针对每条DataHub流式数据,流计算将根据流式数据的主键和RDS中数据进行关联查询(即join查询);同时,阿里云流计算还支持针对多条数据流进行关联操作,StreamSQL支持阿里集团量级的复杂业务也不在话下。

  3. 实时数据集成 为尽可能减少数据处理时延,同时减少数据链路复杂度。阿里云流计算将计算的结果数据可不经其他过程直接写入目的数据存储,从而最大程度降低全链路数据时延,保证数据加工的新鲜度。为了打通阿里云生态,阿里云流计算天然集成了OLTP(RDS产品线等)、NoSQL(OTS等)、OLAP(ADS等)、MessageQueue(DataHub、ONS等)、MassiveStorage(OSS、MaxCompute等)。

  4. 数据消费 流式计算的结果数据进入各类数据存储后,用户可以使用各类个性化的应用消费结果数据: 用户可以使用数据存储系统访问数据,使用消息投递系统进行信息接收,或者直接使用告警系统进行告警。

附: 数据链路情况


对于上图的数据链路,部分数据存储由于和流计算模型不能一一匹配,需要使用其他类型的流数据做中转,说明如下:

  • DataHub

    DataHub提供了多类数据(包括日志、数据库BinLog、IoT数据流等等)从其他数据存储上传到DataHub的工具、界面,以及和一些开源、商业软件的集成,参看《DataHub相关介绍文档》,即可获取丰富多样的数据采集工具。

  • 日志服务(LogService)

    LogService是针对日志类数据一站式服务,在阿里巴巴集团经历大量大数据场景锤炼而成。LogService提供了诸多的针对日志的采集、消费、投递、查询分析等功能。

    查看《LogService有关数据采集》一章,了解如何使用日志进行流式数据消费。

  • 物联网套件(IoTHub)

    物联网套件是阿里云专门为物联网领域的开发人员推出的,其目的是帮助开发者搭建安全性能强大的数据通道,方便终端(如传感器、执行器、嵌入式设备或智能家电等等)和云端的双向通信。

    使用IotHub 规则引擎可以将IoT数据方便投递到DataHub,并利用流计算和MaxCompute进行数据加工计算。查看《IoT规则引擎使用》以查看如何将IoT数据推送到DataHub。

  • 数据传输(DTS)

    DTS支持以数据库为核心的结构化存储产品之间的数据传输。 它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。使用DTS的数据传输功能,可以方便的将RDS等BinLog解析并投递到DataHub,并利用流计算和MaxCompute进行数据加工计算。

    当前DTS传输到DataHub功能已经上线,欢迎使用。具体文档请查看《RDS到DataHub数据实时同步》

  • Message Service

    阿里云消息服务阿里云商用的消息中间件服务,具有大规模,高可靠、高并发访问和超强消息堆积能力的特点。流计算可以直接从消息服务读取流式数据。

    阿里云流计算对接消息服务当前仍在开发中,敬请期待。

  • MQ

    阿里云MQ服务是企业级互联网架构的核心产品,基于高可用分布式集群技术,搭建了包括发布订阅、消息轨迹、资源统计、定时(延时)、监控报警等一套完整的消息云服务。

    阿里云流计算对接ONS服务当前仍在开发中,敬请期待。

本文导读目录