全部产品
云市场
云游戏

什么是数据湖分析

更新时间:2020-07-14 11:14:06

数据湖分析(Data Lake Analytics,DLA)是无服务器(Serverless)化的数据湖分析服务。支持:

何时使用DLA?

DLA可以帮助您分析与计算OSS、Tablestore、RDS、MongoDB、Redis、AnalyticDB for MySQL、MaxCompute等不同数据源中数据,让不同存储源中沉睡已久的数据,具备分析能力,或者进行异构数据源关联分析。

  • DLA可以与DataV、Quick BI集成,在DLA中进行数据分析后,通过BI工具连接DLA并生成报表。

  • DLA是无服务器的,完全按需使用,只需为您运行的查询付费,资源伸缩方便,无感知升级。

  • DLA是云上默认的数据湖分析方案,打造端到端的一体化体验。

为什么同时支持Serverless SQL与Serverless Spark?

DLA Serverless SQL是在开源Presto基础上研发而来,完全由内存完成计算工作,具备高性能、交互式的分析体验,大约10秒即可返回SQL。

以下场景推荐您使用DLA Serverless Spark:

  • 需要自定义Code,SQL很难表达的,例如编写Java、Scala、Python或者SQL带条件的。

  • 需要大规模的清洗,例如1天清洗1次OSS 1TB~1PB的数据。

  • 需要算法支持,DLA Spark支持完整的Spark算法库。

  • 需要支持Streaming。

数据湖与数据仓库的区别?

  • 数据湖:

    • 数据湖存储OSS,支持存储任意规模的结构化和非结构化数据。

    • 数据湖分析DLA,按原结构存储数据(无需预先对数据进行结构化处理),并运行不同类型的分析。从控制面板和可视化到大数据处理、实时分析和机器学习,方便决策者做出更好的决策。

  • 数据仓库:存储结构化数据,借助索引提供更高性能的服务。一般情况下,将数据湖分析DLA与云原生数据仓库AnalyticDB MySQL版(ADB)搭配使用,DLA将分析与计算后的数据写入ADB中,以提供更高性能的实时分析的能力,节省费用。

对比项目 DLA 数据仓库
数据 来自IoT设备、网站、移动应用程序、社交媒体和企业应用程序的非关系和关系型数据 来自事务系统、运营数据库和业务线应用程序的关系型数据
性价比 更快查询结果、只需较低存储成本 更快查询结果、需要较高存储成本
用户 数据科学家、数据开发人员和业务分析师 业务分析师
分析 机器学习、预测分析、数据发现和分析 批处理报告、BI和可视化
产品形态 Serverless形态(按照扫描计费或者CU计费) 集群计费

DLA场景

除DLA支持的联邦场景外,您可以通过DLA构建数据湖整体解决方案。

数据湖分析方案:一站式数据湖分析处理

dla_datalake

  • 阶段1:数据湖构建(需要关联DLA的Meta)

    • 数据入湖:DLA提供一键建湖功能。

    • 上传文件:对于OSS中的非格式化数据,需要手动清洗数据。此时,可以通过DLA Serverless Spark以较低的成本处理OSS中半结构化或者非结构化数据,并关联好DLA的Meta。

    • 流式数据:对于IoT数据或者日志数据等流式数据,可以通过DLA SparkStreaming将其写入OSS中,支持Hudi以及自动关联DLA的Meta。

  • 阶段2:关联DLA Meta,通过DLA的一键建湖与SparkStreaming,自动关联好Meta。其他模式下,DLA也提供了很多工具关联DLA Meta。

  • 阶段3:DLA支持通过SQL交互式分析得出报表,或者通过DLA Spark完成计算等。

联邦分析方案:同时连接多个数据源进行数据分析

联邦分析