Spark 基本介绍-阿里云帮助中心

RDS、NoSQL相关的数据库服务擅长在线存储查询场景，X-Pack Spark服务通过外部计算资源的方式，为Redis、Cassandra、MongoDB、HBase、RDS存储服务提供复杂分析、流式处理及入库、机器学习的能力，从而更好的解决用户数据处理相关场景问题。

X-Pack Spark服务具有以下几个特点：

数据工作台：支持交互式、作业管理、工作流、资源管理、元数据管理，从测试、开发、上线一站式开发体验。
Spark多源connector：一键关联Cassandra、HBase、MongoDB、Redis、RDS等集群，免去调试的烦恼，更加便捷的分析其他数据库的数据。
可维护性：支持小版本升级、监控、报警，免去Spark集群维护。
离线数仓能力：支持一键归档在线库RDS、PolarDB、MongoDB、Cassandra、HBase数据到Spark，构建统一的数仓；支持HiveMeta管理数仓数据。
成本：X-Pack Storage支持基于云盘、D1的HDFS、以及OSS，分级存储满足不同容量、成本场景需求；计算节点支持弹性伸缩，最低化成本消耗。

业务架构图

ApsaraDB 在线数据库擅长在线查询场景，X-Pack Spark为在线数据库用户提供混合负载的能力，主要包括：

1、统一数据ETL服务

场景：在业务的选型和发展中，不同类型的数据会存储在不同的数据库中，数据孤岛对于企业发展不利，统一的数据ETL服务能够让数据之间产生连接交互，产生更多的价值。
价值及优势：
- 丰富数据源：支持阿里云包括数据库、消息中间件、OSS基本所有数据源。
- ETL能力：支持批流统一、多源联邦ETL、支持SQL&Python&scala等语言。
- 数据管理能力：支持元数据管理、工作流依赖、作业定时调度、报警等。

2、大数据用户画像及推荐场景

场景：随着积累的用户越来越多，推出商品推荐功能，需要实时对用户行为日志进行ETL分析、存储以及模型计算等。
价值及优势：
- spark多源处理能力可以对接基本所有的数据系统，比如RDS、Cassandra、MongoDB、HBase、Redis，以及Kafka、Loghub等。
- spark 流、批、机器学习统一的能力，可以一站式解决计算问题。
- Cassandra/HBase适合作为用户画像的统一宽表存储。
- MongoDB作为商品信息的存储，Redis作为推荐结果的加速层。

3、物联网日志处理平台

场景：对于车联网、物联网、游戏行业，会有百万终端百TB级数据不间断写入，数十亿级数据量下在线查询，以及对冷数据的大数据计算挖掘的需求。
价值及优势：
- 冷热分离存储降成本：比如3个月的热数据存储在云Cassandra&hbase*phoenix这样的大数据在线存储库（基于SSD盘），全量的冷数据存储在X-Pack Spark数据仓库（HiveMeta）（基于本地盘D1机型，以及OSS存储）。
- 存储及计算一体化：写入云Cassandra&HBase*phoenix&MySQL在线库的数据，通过Log实时归档到X-Pack Spark数据仓库（HiveMeta）来做大数据的计算分析。

4、大数据风控系统

场景：在电商、游戏、广告、金融等行业都需要记录用户的行为日志以及订单明细，做风控处理，风控处理会包括事前风控、事中风控、事后风控，这样一套具有存储、计算、机器学习能力的平台。
价值及优势：
- 存储、计算、机器学习一体化：在线存储针对不同的数据类型可以选择MongoDB&Cassandra&HBase，比如MongoDB适合存储Json、Cassandra适合实时在线使用SQL存储宽表、HBase适合做KV在线存储；而Spark作为业界最成熟的大数据统一平台支持流、批计算、机器学习能力。
- 事前、事中、事后风控同时支持：基于在线存储的风控结果可以做事前风控、利用spark streaming可以做事中风控、x-pack spark的数据仓库能力可以用来做全量数据的时候风控。
- 模型训练及仿真一体化：spark mllib及计算能力可用来做模型的训练，同时x-pack spark的离线数仓能力可以用来对规则及模型做仿真评测。

5、数据中台构建

场景：企业前期在快速支持业务时，数据会存储在不同的系统中，比如Cassandra、MongoDB、HBase、RDS、PolarDB、Kafka、Loghub、tablestore、ADB等中，之后会有构建统一的数据仓库的需求。X-Pack Spark的数仓Storage、及多源connector的能力很适合。
价值及优势：
- X-Pack Spark多数据源：X-Pack Spark支持对接基本全部的消息中间件、NoSQL、OLTP、OLAP等数据系统。
- 异构数据源归档能力：支持对Cassandra、MongoDB、HBase、RDS等数据源进行一键归档。
- X-Pack Spark数据仓库能力：X-Pack Spark内置HiveMeta用来管理大量复杂的数仓表。
- X-Pack Spark Storage能力：支持高效盘HDFS、本地盘HDFS、OSS存储不同成本的存储介质。
- X-Pack Spark Storage资源弹性：支持计算资源根据计算复杂弹性伸缩。
- X-Pack Spark开发者能力：支持SQL、Python、scala、Java等语言进行分析计算开发。

6、其他垂直行业使用参见示例文档。