全部产品
云市场
云游戏

概述

更新时间:2020-07-07 14:25:48

概述

通常MySQL、NoSQL数据库服务适用于在线存储、查询场景,DLA独享版Spark服务通过外部计算资源,为Redis、MongoDB、PolarDB、HDFS存储服务提供复杂分析、流式处理及入库、机器学习的能力,适用于数据处理场景。

独享版Spark服务有以下特性:

  • 数据工作台:支持交互式、作业管理、工作流、资源管理、元数据管理,提供从测试、开发、上线一站式服务体验。

  • Spark多数据源连接:一键关联Redis、MongoDB、PolarDB、HDFS等集群,免去繁琐的调试工作,快速分析数据。

  • 可维护性:支持小版本升级、监控、报警功能,免去Spark集群维护工作。

  • 离线数仓功能:支持一键归档,将Redis、MongoDB、PolarDB、HDFS数据同步到独享版Spark,构建统一数仓。支持HiveMeta管理数仓数据。

  • 成本:独享版Spakr服务支持基于云盘、本地HDD盘、OSS存储类型,分级存储满足不同容量、成本需求。计算节点支持弹性伸缩,降低成本。

架构

独享版Spark服务为在线数据库用户提供混合负载能力:

  • 流式处理及入库,独享版Spark Streaming为数据库提供流式ETL入库。

  • 打通生态,独享版Spark通过多数据源功能,提供外部数据源批量入库、联邦分析能力。

  • 复杂计算及算法,支持SQL、Python、Java、Scala、R多语言,支持复杂的数据过程处理、机器学习等。

  • 离线数仓(复杂分析),一键归档数据到独享版Spark,为数据库添加PB级别离线数仓能力,支持复杂分析,提供天或月级别的报表等。

  • 非结构化处理,搭配HDFS或OSS存储,为数据库添加非结构化数据存储处理能管理(CSV、XML、Parquet多种存储类型)。

典型场景

统一数据ETL服务

在业务选型和发展中,不同类型的数据存储在不同的数据库中,形成数据孤岛,不利于企业发展。统一的数据ETL服务能够让数据之间产生连接交互,产生更多的价值。

价值及优势:

  • 丰富的数据源,支持阿里云数据库、消息服务中间件、OSS数据源。

  • ETL能力,支持批流统一、多源联邦ETL、支持SQL、Python、Scala等语言。

  • 数据管理能力,支持元数据管理、工作流依赖、作业定时调度、报警等。

大数据用户画像及推荐场景

当企业积累的用户越来越多时,企业可以根据用户画像推出商品推荐功能,此时可以通过独享版Spark服务实时对用户行为日志进行ETL分析、存储以及模型计算等。

价值及优势:

  • 独享版spark多源处理能力可以对接基本所有的数据系统,比如RDS、Cassandra、MongoDB、HBase、Redis,以及kafka、loghub等。

  • 独享版Spark具有流、批、机器学习统一的能力,一站式解决计算问题。

  • Cassandra和HBase适合做宽表,存储用户画像。

  • MongoDB用于存储商品信息,Redis作为推荐结果的加速层。

物联网日志处理平台

对于车联网、物联网、游戏行业,拥有百万终端百TB级数据不间断写入,数十亿级数据量下在线查询,以及对冷数据的大数据计算挖掘的需求。

价值及优势:

  • 冷热数据分开存储,降低企业成本。您可以将近3个月的热数据存储在云Cassandra、Hbase这样的大数据在线存储库(基于SSD盘)中,将全量冷数据存储在独享版Spark数据仓库(HiveMeta),基于本地盘D1机型,以及oss存储。
  • 存储及计算一体化,写入云Cassandra、Hbase在线库的数据,可以通过log实时归档到独享版Spark数据仓库(HiveMeta)中,进行大数据计算分析。

大数据风控系统

在电商、游戏、广告、金融等行业都需要记录用户的行为日志以及订单明细,做风控处理。风控处理包括事前风控、事中风控、事后风控,需要一套具有存储、计算、机器学习能力的平台。

价值及优势:

  • 存储、计算、机器学习一体化:在线存储针对不同的数据类型可以选择MongoDB&Cassandra&HBase,比如mongoDB适合存储json、Cassandra适合实时在线使用SQL存储宽表、HBase适合做KV在线存储;而Spark作为业界最成熟的大数据统一平台支持流、批计算、机器学习能力。

  • 事前、事中、事后风控同时支持:基于在线存储的风控结果可以做事前风控、利用spark streaming可以做事中风控、x-pack spark的数据仓库能力可以用来做全量数据的时候风控。

  • 模型训练及仿真一体化:spark mllib及计算能力可用来做模型的训练,同时x-pack spark的离线数仓能力可以用来对规则及模型做仿真评测。

构建数据中台

企业在前期快速发展时,数据存储在不同的系统中,例如Cassandra、MongoDB、HBase、RDS、PolarDB、Kafka、Loghub、TableStore、云原生数据仓库AnalyticDB MySQL版中。当企业业务逐渐发展到一定规模时,会有构建统一数据仓库的需求。独享版Spark的数仓Storage以及多源Connector能力非常适合该业务场景。

价值及优势:

  • 独享版Spark多数据源,独享版Spark支持对接几乎全部的消息中间件、NoSQL、OLTP、OLAP等数据系统。

  • 异构数据源归档能力,支持对Cassandra、MongoDB、HBase、RDS等数据源进行一键归档。

  • 独享版Spark数据仓库能力,独享版Spark内置HiveMeta,用于管理大量复杂的数仓表。

  • 独享版Spark Storage能力,支持高效盘HDFS、本地盘HDFS、OSS存储不同成本的存储介质。

  • 独享版Spark Storage资源弹性,支持计算资源根据计算复杂弹性伸缩。

  • 独享版Spark开发者能力,支持SQL、Python、Scala、Java等语言进行分析计算开发。

计费方式

按照集群节点数目、规格以及使用时长计费,详情请参见购买Spark集群