全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
流计算

一般性问题

更新时间:2017-11-23 18:22:32

什么是流式处理,能解决什么问题?

目前对信息高时效性、可操作性的需求不断增长,这要求软件系统在更少的时间内能处理更多的数据。传统的大数据处理模型将在线事务处理和离线分析从时序上将两者完全分割开来,但显然该架构目前已经越来越落后于人们对于大数据实时处理的需求。

流计算的产生即来源于对于上述数据加工时效性的严苛需求: 数据的业务价值随着时间的流失而迅速降低,因此在数据发生后必须尽快对其进行计算和处理。而传统的大数据处理模式对于数据加工均遵循传统日清日毕模式,即以小时甚至以天为计算周期对当前数据进行累计并处理,显然这类处理方式无法满足数据实时计算的需求。在诸如实时大数据分析、风控预警、实时预测、金融交易等诸多业务场景领域,批量(或者说离线)处理对于上述对于数据处理时延要求苛刻的应用领域而言是完全无法胜任其业务需求的。而流计算作为一类针对流数据的实时计算模型,可有效地缩短全链路数据流时延、实时化计算逻辑、平摊计算成本,最终有效满足实时处理大数据的业务需求。

什么是阿里云流计算?

AliCloud StreamCompute(阿里云流计算)是运行在阿里云平台上的流式大数据分析平台,提供给用户在云上进行流式数据实时化分析工具。使用阿里云StreamSQL,用户可以轻松搭建自己的流式数据分析和计算服务,彻底规避掉底层流式处理逻辑的繁杂重复开发工作。利用阿里云流计算提供的全链路流式数据开发套件,用户可以享受到从数据集成、数据加工、数据运维全流程一站式解决方案,最大化实时化自身业务。

阿里云流计算适用场景?

阿里云流计算提供类标准的StreamSQL语义协助用户简单轻松完成流式计算逻辑的处理。同时,受限于SQL代码功能有限无法满足某些特定场景的业务需求,阿里云流计算同时为部分授信用户提供全功能的UDF函数,帮助用户完成业务定制化的数据处理逻辑。在流数据分析领域用户直接使用StreamSQL+UDF即可完成大部分流式数据分析处理逻辑,目前的流计算更擅长于做流式数据分析、统计、处理,对于非SQL能够解决的领域,例如复杂的迭代数据处理、复杂的规则引擎告警则不适合现有的流计算产品去解决。

公测阶段阿里云流计算的限制是什么?

  • 公测阶段 流计算不支持用户公开申请或者购买流计算产品,需要人工申请、人工开通。如何申请请参考《产品开通》一节。
注: 当前DataHub仍然处于公测阶段,用户对于DataHub的申请同样需要走人工流程。公测阶段,流计算开通过程中会沟通到DataHub开通相关细节。

  • 公测阶段 流计算仅支持杭州地域,且仅暴露WebConsole界面给用户,公测阶段暂无REST-API以及SDK开放的计划。

  • 公测阶段 流计算为单个Project默认开通仅提供5cu计量的计算资源,当前1cu相当于1CPU的计算能力。当前在我们内部压测场景下,一个流计算CU的处理能力可以理解为,在简单的流式处理(过滤、清洗)场景下为1000条/s,复杂的流式处理(例如复杂UDF计算、聚合操作等)场景下为500条/s。您可以根据您的业务情况,评估需要多少CU。

  • 公测阶段 流计算暂不提供UDF功能,如果需要支持UDF,用户需要联系流计算产品团队进行单独申请和开通。

  • 公测阶段 流计算对整个Project下属的Task、Task版本、IDE打开Task页面均有不同限制,包括:
    • 一个阿里云账号原则上仅允许分配一个Project项目,如果需要多个Project项目,可以用不同阿里云账号申请开通流程。

    • 单个Project下允许最多创建Job的个数为100个。

    • 单个Project下最多允许文件夹的个数为50个,深度最大不超过5层。

    • 单个Project下最多允许UDF/Jar个数为50个。

    • 单个Project下最多允许数据存储注册的个数为50个。

    • 单个Task最多允许历史保存版本数为20个。

  • 公测阶段 流计算WebConsole支持且仅支持Chrome浏览器访问。

  • 公测阶段 特别注意的是,整个公测阶段,流计算产品可能存在较大的产品设计、交互等方面的调整,敬请谅解。

本文导读目录