全部产品
云市场

Spark 基本介绍

更新时间:2019-06-12 14:43:24

概述

HBase生态相关服务擅长在线查询场景,X-Pack Spark集群通过外部计算资源的方式,为HBase服务提供复杂分析、流式处理及入库、机器学习的能力,从而更好的解决大的数据量及物联网等场景问题。

云HBase提供的X-Pack Spark集群具有以下几个特点:

  • 数据工作台:支持交互式、作业管理、工作流、资源管理、元数据管理,从测试、开发、上线一站式开发体验
  • Spark内置connector:一键关联hbase、mongo、redis、rds等集群,免去调试的烦恼,更加便捷的分析其他数据库的数据
  • 可维护性:支持小版本升级、监控、报警,免去Spark集群维护
  • 离线数仓能力:归档在线库rds、polardb、mongo、hbase、cassandra数据到Spark数仓
  • 成本:集群默认存储为集群版本HDFS,同时支持数据存储在oss降成本

计费方式

计费与定价和云HBase一致,具体可以参考。如有疑问请钉钉联系或者提交工单

业务架构图

ApsaraDB 在线数据库包括云HBase擅长在线查询场景,X-Pack Spark为在线数据库用户提供混合负载的能力,主要包括:

  • 流式处理及入库:Spark Streaming为数据库提供流式ETL入库(延迟s级别);
  • 生态打通:Spark的多数据源能力,提供外部数据源批量入库、联邦分析能力;
  • 算法及Code:支持python、java、scala、R、SQL多语言,支持复杂的数据过程处理(类似PL/SQL)、机器学习等;
  • 离线数仓(复杂分析):一键归档数据到Spark,为数据库添加PB级别离线数仓能力,支持复杂分析,提供天/月级别的报表等;
  • 非结构化处理:搭配HDFS/OSS存储为数据库添加非结构化数据存储处理能管理(CSV、XML、Parquet多种存储)。

典型场景

1、 流式处理及查询系统

  • 数据处理流程

    • Streaming实时读取Kafka数据做ETL
    • 复杂的ETL可以实时读取HBase/Phoenix的维表数据做关联
    • 结果数据写入HBase/Phoenix对外提供在线查询服务
  • 具体适用的业务包括:

    • 商业智能:在线统计广告投放转化率、在线统计不同商品的pv、ipv等
    • 物联网:终端采集数据,流式处理
    • 数据时效性:需要数据及时的处理后,供运营及用户查询

2、 复杂分析及查询系统

  • 数据处理流程

    • 在上一个场景流式入库之后添加了复杂分析(大表join、大表groupby等)的部分
  • 具体适用的业务包括:

    • 复杂分析:”流式处理及查询系统”业务场景需要添加复杂分析
    • 数据归档:定期把在线库的数据归档到分析集群数仓做复杂分析
    • 数据仓库:构建分析集群数仓来解决复杂分析的数据管理

3、 算法分析及查询系统

  • 数据处理流程

    • 业务具有算法分析场景,可以在Streaming阶段和复杂分析阶段分别添加在线机器学习、离线机器学习的能力
  • 具体适用的业务包括:

    • 算法分析:使用分析集群的机器学习、图计算能够有效的支持业务的算法需求
    • 在线算法处理:比如事中风控、在线分类等
    • 离线算法处理:模型训练、大规模机器学习算法运行

4、 其他垂直行业使用见文档,包括“物联网&车联网行业”、“金融行业风控”等