阿里云实时计算(Alibaba Cloud Realtime Compute)是一套基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理等场景。

产品特点

  • 强大的实时处理能力

    阿里云实时计算集成诸多全链路功能,方便您进行全链路实时计算开发,包括:
    • 强大的流计算引擎。
      1. 阿里云实时计算提供Flink SQL(详情请参见Flink SQL概述),支持各类错误场景的自动恢复,保证故障情况下数据处理的准确性。
      2. 支持多种内置函数,包括:字符串函数、日期函数、聚合。
      3. 精确的计算资源控制,高度保证公共云用户作业的隔离性。
    • 关键性能指标为开源Flink的3到4倍。数据计算延迟优化到秒级甚至亚秒级。单个作业吞吐量可做到百万(记录/秒)级别。单集群规模为数千台。
    • 深度整合各类云数据存储。阿里云实时计算可以直接读写包括数据总线DataHub、日志服务LOG、云数据库RDS版、表格存储TableStore、分析型数据库MySQL版在内的各类数据存储系统,无需进行额外的数据集成工作。
  • 托管的实时计算服务

    不同于开源或者自建的流式处理服务,阿里云实时计算是完全托管的流式计算引擎。阿里云可针对流数据运行查询,无需预置或管理任何基础设施。在阿里云实时计算,您可以享受一键启用的流式数据服务能力。阿里云实时计算天然集成数据存储、数据开发、数据运维、监控报警等功能,方便您以较小成本试用和迁移流式计算。同时,实时计算提供完全租户隔离的托管运行服务。从最上层工作空间,到最底层执行机器,提供高度有效的隔离和全面防护,让您放心使用实时计算。
  • 低廉的人力和集群成本

    大量优化的SQL执行引擎,提供比原生Flink作业更高效且更廉价的计算作业。在开发成本和运行成本方面,阿里云实时计算均要远低于开源流式框架。例如,项目预算时您需要考虑如下成本:
    • 编写一个复杂业务逻辑下Flink作业Java代码的人力成本。
    • 针对、作业的调试、测试、调优、上线工作成本。
    • 后续长期用于Flink、Zookeeper等开源软件的运维成本。
    如果使用阿里云实时计算服务,上述问题交由阿里云平台承担,您可以专注于业务。

产品定位

  • 目前实时计算适用应用场景
    • 实时的网络点击PV、UV统计。
    • 统计交通卡口平均时间段内(例如平均每5分钟)的车流量。
    • 水利大坝的压力数据的统计和展现。
    • 网络支付中涉及金融盗窃固定行为规则的告警。
  • 目前实时计算无法实现的场景
    • Oracle存储过程无法使用实时计算替换。实时计算无法从功能上完全替换掉Oracle存储过程,两者面向问题领域不一致。
    • Spark作业无法无缝迁移至实时计算。Spark中涉及实时计算的部分,可以通过改造,完成从Spark至实时计算的迁移。完成迁移后您可以省去运维Spark和开发Spark等工作的成本。
    • 实时计算无法实现多条复杂规则引擎的告警功能。 如果单一数据存在多条复杂规则的告警,在系统运行的同时,告警本身也会发生变化。这类场景建议使用规则引擎系统解决,实时计算主要针对的不是此类问题。

当前实时计算对外接口定义为Flink SQL加UDF。实时计算提供服务于流式数据分析、统计、处理等应用场景的一站式开发工具。面向的用户包括数仓开发人员、数据分析师等。您通过编写Flink SQL,即可完成自身流式数据分析业务,不需要参与底层代码开发。

基本概念

概念 说明
计算集群(Compute Cluster) 计算集群是承载实时计算产品计算任务的分布式集群系统,基于YARN模式。根据集群的形态不同,实时计算分为独享模式和共享模式,详细见产品模式概述
开发界面(WebConsole) 实时计算提供了一套完整在线IDE开发工具,一站式集成数据存储、数据开发、数据运维、监控报警等功能,辅助您进行业务开发。
项目空间(Project) 项目空间是实时计算最基本的业务组织单元,是您管理集群、作业、资源、人员的基本单元。您可以新建项目,也可以以子账号身份加入其它项目空间。
说明 实时计算的项目空间,通过阿里云RAM主子账号,支持多人同时操作。
实时计算单元(CU)

在实时计算中,作业的实时计算单元为CU。1 CU描述了1个实时计算作业最小运行能力,即在限定的CPU、内存、I/O情况下对于事件流处理的最小能力。1个实时计算作业可以指定在1个或者多个CU上运行。

当前对实时计算单元(CU)运行能力的定义:1 CU=1 CPU + 4G MEM。其处理能力约为:

  • 简单业务:例如单流过滤、字符串变换等操作,1 CU每秒可以处理10000条数据。
  • 复杂业务:例如JOIN、窗口、GROUP BY等操作,1 CU每秒可以处理1000到5000条数据。
说明 实时计算单元(CU)的具体处理能力也与您的业务实际情况相关。