全部产品
云市场

什么是数据湖分析

更新时间:2020-06-15 13:41:27

数据湖分析(Data Lake Analytics,DLA)是无服务器(Serverless)化的 数据湖分析服务;

  • 支持 库表 与 父子权限体系
  • 支持 一键建湖:从RDS(MySQL、PG、SQlServer)一键同步数据到OSS建湖;
  • 支持双引擎:

    • 可以使用DLA SQL( 标准SQL) 对存储在不同数据源中的数据进行在线交互式查询分析,并很快得到结果,对标AWS Glue、Google Bigquery,可以支持简单的ETL任务;
    • 可以使用DLA Spark(完全兼容社区Spark) 对存储在不同数据源中的数据进行数据清洗与回写;
  • 支持数据源矩阵:(DLA Spark正在打通用户VPC,以扩展更多的场景),更多细节参考 细节功能矩阵

数据源 DLA SQL读写 DLA Spark读写
OSS 支持 支持
RDS 支持 待支持
POLARDB 支持 待支持
MongoDB 支持 待支持
OTS 支持 支持
ADB MySql 2.0 支持 待支持
ADB MySql3.0 支持 待支持
ADB PG 支持 待支持
ODPS 支持 支持
ES 支持 待支持
Druid 支持 待支持

何时使用DLA?

DLA可以帮助您分析与计算 OSS、Tablestore、RDS、MongoDB、Redis、AnalyticDB for MySQL、MaxCompute等不同数据源中数据,让不同存储源中沉睡已久的数据,具备分析能力,或者进行异构数据源关联分析。

DLA可以与DataV、Quick BI集成,在DLA中进行数据分析后,通过BI工具连接DLA并生成报表。

DLA是无服务器的,完全按需使用,只需为您运行的查询付费,资源伸缩方便,无感知升级。

DLA是云上默认的数据湖分析方案,打造端到端的一体化体验。

为什么同时支持Serverless SQL 与 Serverless Spark?

DLA Serverless SQL是开源Presto改造的,完全内存计算的,追求的是高性能、交互式的分析体验,一般的SQL在10s左右返回;

在以下场景下,我们推荐 DLA Serverless Spark:

  • 需要自定义Code,SQL很难表达的,比如写Java、Scala、Python或者SQL带条件的
  • 需要大规模的清洗,比如一天清洗一次OSS 1TB~1PB的数据
  • 需要算法的支持,DLA Spark支持完整的Spark算法库
  • 需要Streaming的支持

数据湖与数据仓库的区别?

  • 数据湖:数据湖存储OSS:允许您以任意规模存储所有结构化和非结构化数据。数据湖分析DLA:按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

  • 数据仓库:是结构化的,借助索引提供更高性能的服务;一般情况下,数据湖分析DLA会跟 数据仓库 ADB 搭配,DLA会把分析与计算的数据写入到 ADB之中,以提供更高性能的实时分析的能力,客户会为此额外支付一笔费用;

对比项目 数据湖 数据仓库
数据 来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系数据 来自事务系统、运营数据库和业务线应用程序的关系数据
性价比 更快查询结果只需较低存储成本 更快查询结果会带来较高存储成本
用户 数据科学家、数据开发人员和业务分析师 业务分析师
分析 机器学习、预测分析、数据发现和分析 批处理报告、BI 和可视化
产品形态 Serverless形态(按照扫描计费或者CU计费) 集群计费

DLA场景

除了DLA支持的联邦场景外,一般的客户会使用DLA构建数据湖的整体解决方案:

数据湖分析方案:DLA一站式数据湖分析处理

dla_datalake

  • 阶段1:数据湖构建(需要关联 DLA 的Meta)
    • 数据湖的数据 入湖:可以通过DLA提供的 一键建湖 的能力,客户也可以通过其他手段建湖
    • 文件上传:此一般是客户自己管理数据的模式,如果不是格式化的数据,一般需要清洗,此时,可以通过DLA Serverless Spark低成本清晰OSS的半结构化或者非结构化的文件,并关联好DLA 的Meta
    • 流式数据:一般是Iot的数据或者日志数据等,此一般是通过流对接源,DLA提供了DLA SparkStreaming来对接,并写入OSS之中,并提供Hudi格式的支持,并自动关联好DLA的Meta
  • 阶段2:关联DLA Meta:通过DLA提供的 一键建湖 与 DLA SparkStreaming 会自动关联好Meta;其他模式,DLA也提供了很多工具给予支持 关联好DLA Meta
  • 阶段3:DLA可以通过SQL交互式分析 出报表或者 通过DLA Spark做进一步的计算等相关事项

联邦分析方案: DLA同时连接多个数据源做数据的分析

联邦分析