全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 更多
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 智能硬件
流计算

产品术语

更新时间:2018-03-30 17:13:33

产品模型

22

项目空间(Project)

项目空间是阿里云流计算最基本的业务组织单元,是用户管理集群、作业、资源、人员的基本单元。用户可以选择创建项目,同时亦可以子账号身份加入其它Project中。流计算的项目空间通过阿里云RAM主子账号支持多人协作。

作业(Job)

类似一个MaxCompute/Hadoop Job,一个流计算的作业描述了一个完整的流式数据处理业务逻辑,是流式计算的基础业务单元。

流计算单元(CU)

在阿里云流计算中,作业的流计算单元为CU。一个CU描述了一个流计算作业最小运行能力,即在限定的CPU、内存、IO情况下对于事件流处理的能力。一个流计算作业可以指定在1个或者多个CU上运行。

当前流计算定义 1CU的处理能力大概为 1000条数据 / 秒

StreamSQL

不同于诸多开源的流式数据处理系统提供非常底层的编程API,阿里云流计算提供更加高层更加面向业务化的StreamSQL(标准SQL语法上提供了关于流式处理的语法扩展),方便数据开发人员使用标准化的SQL即可完成流式数据计算加工的业务流程。因此,阿里云流计算适合面向更大众的数据分析人员快速、方便地完成一个流式数据处理业务。

UDF

阿里云流计算支持UDF(User Define Function,即用户自定义函数)函数。类似于Hive UDF函数,StreamSQL提供了标准化的流式数据处理能力同时,对于部分业务特殊自定义处理逻辑,建议用户使用UDF函数表达。目前阿里云流计算仅支持Java的UDF函数扩展。

资源(Resource)

当前UDF函数仅支持使用Java语言表达,对于每个用户上传的Jar,流计算定义为一个Resource。

数据采集 (Data Collection)

广义的数据采集指将数据从数据产生方收集并传输进入到大数据处理引擎的过程,在阿里云流计算,数据采集原则上遵循上述定义,但更加聚焦为将流式数据从数据产生方收集并传输进入数据总线的过程。

数据存储(Data Store)

阿里云流计算定义为一种轻量级计算引擎,本身不带有任何业务数据存储系统。阿里云流计算均是使用外部数据存储作为数据来源和数据目的端进行使用。阿里云流计算将数据存储均定义为外部的数据存储,例如将用户RDS作为结果表,那么RDS即是流计算的一类DataStore。

目前支持流式输入存储有:

  • 大数据总线(DataHub)

  • 日志服务(LogService)

  • 消息服务(MQ)

支持静态输入表有:

  • 表格存储(TableStore)

  • 云数据库(RDS)

支持输出表有:

  • 大数据总线(DataHub)

  • 日志服务(LogService)

  • 表格存储(TableStore)

  • 云数据库(RDS)

数据加工 (Data Develop)

流式计算的开发过程(即编写BlinkSQL的过程),将其定义为数据加工。阿里云流计算提供一整套包括开发、调试的在线IDE,服务流式数据加工过程。

数据运维 (Data Operation)

流计算作业的在线运维定义为数据运维。阿里云流计算提供一整套管控平台,方便用户进行流式数据的运维管控。

本文导读目录