文档

产品简介

更新时间:

阿里云数据湖构建(Data Lake Formation,简称 DLF)是一款全托管的快速帮助用户构建云上数据湖及Lakehouse的服务,为客户提供了统一的元数据管理、统一的权限与安全管理、便捷的数据入湖能力以及一键式数据探索能力。DLF可以帮助用户快速完成云原生数据湖及Lakehouse方案的构建与管理,并可无缝对接多种计算引擎,打破数据孤岛,洞察业务价值。

产品定价

  • 数据湖构建的数据入湖、数据探索、权限管理、湖管理功能均为公测免费阶段,无计费。

  • 元数据管理功能按量计费,每个月元数据对象存储<=100万个以下免费;超过上述数量会有计费,详情请参考计费

  • 每个月API请求数量<=100万个以下免费。超过上述数量会有计费,详情请参考计费

产品功能架构

DLF产品架构
  • 元数据管理,通过控制台查看和管理数据湖中元数据库和表的信息,通过新增元数据库的方式操作元数据,集成到第三方应用服务。并支持多版本管理、可通过元数据发现和入湖任务自动生成元数据。

  • 入湖基础操作,通过入湖任务的方式将分散在MySQL、Kafka和PolarDB等数据统一存储,入湖过程如果没有定义元数据信息,入湖任务会自动生成元数据的表信息。

  • 数据权限管理,可以加强湖上数据权限控制,保障数据安全。可支持对元数据库、元数据表、元数据列三种粒度的权限。

  • 数据探索,为您提供一键式数据探索能力,可支持Spark 3.0 SQL语法,可以保存历史查询,预览数据,导出结果,一键生产tpc-ds测试数据集。

  • 湖管理,将为您提供对湖内数据存储的分析及优化建议,加强对数据生命周期管理,优化使用成本,方便您进行数据运维管理。

应用场景

  • 数据分析场景,通过元数据发现、数据探索能力,可以快速的对OSS内结构化、半结构化数据进行分析、探索。

  • 结合E-MapReduceOSS两个产品,DLF协助客户快速构建云上数据湖。

云原生数据湖场景湖仓一体场景
  • 结合DatabricksOSS产品,构建云上全托管Lakehouse数据架构。

全托管Lakehouse数据架构