文档

什么是数据湖构建

更新时间:

阿里云数据湖构建(Data Lake Formation,简称DLF)是一款全托管的统一元数据和数据存储及管理平台,旨在为客户提供元数据管理、存储管理、权限管理、存储分析和存储优化等功能。DLF与多个阿里云大数据计算引擎无缝对接,打破数据孤岛,帮助用户迅速实现云原生数据湖及OpenLake解决方案的构建与管理。该平台能够实现元数据的统一、湖表格式的统一以及数据存储的统一,显著简化客户在数据湖构建和管理过程中的运维工作,助力企业聚焦于业务创新和数据洞察。

产品特性

  • 统一元数据与存储

    大数据计算引擎和AI产品共享一套湖上元数据和存储,且数据可在环湖产品间流动。

  • 统一权限管理

    大数据计算引擎与AI产品共享一套湖表权限配置,实现一次配置,多处生效。

  • 存储分析与优化

    支持存储使用趋势分析与文件分布分析,提供小文件合并、过期快照清理、分区整理及废弃文件清理等优化策略,提升存储效率。

  • 完善的云生态支持体系

    深度整合阿里云产品,包括流批计算引擎、大数据开发平台及AI平台,实现开箱即用,提升用户体验与操作便捷性。

产品架构

image

  • 元数据管理:通过控制台查看和管理数据湖中的元数据库及其表的信息,采用新增元数据库的方式对元数据进行操作,并将其集成到第三方应用服务中。

  • 权限管理:能够加强湖上数据的权限控制,以保障数据的安全性。支持对Catalog、元数据库以及元数据表三种粒度的权限管理。

  • 存储分析:将为您提供湖内数据存储的概览分析,包括存储使用趋势、资源存储量排名以及存储格式分布等信息,以便于您进行数据运维管理。

  • 存储优化:支持小文件合并、过期快照清理、过期分区清理及废弃碎片文件清理等湖表优化策略,以降低使用成本并提高查询效率。

产品优势

  • 全托管服务 Paimon元数据与存储服务统一管理,开箱即用,免去运维负担,支持数据开发与治理的全周期。

  • 企业级安全 提供API权限和数据权限的双重管理,支持多样的权限控制点,确保数据安全与合规。

  • 灵活的优化策略 支持文件合并、数据清理等多种灵活的湖表优化策略,显著提升访问性能,降低存储成本。

  • 领先的开源生态 深度集成Paimon,提供全托管的元数据与存储管理,并与阿里云的计算引擎及AI产品无缝对接,构建强大的生态系统。

应用场景

LakeHouse场景

LakeHouse结合了数据仓库与数据湖的优点,提供了一套能够处理多样化数据类型并保持高性能分析能力的架构。企业可以利用LakeHouse处理大量历史数据、实时数据及多种类型的数据。此外,处理后的数据可以作为共享资源,实现各个团队的按需访问,同时确保数据的安全性。

传统大数据场景

适用于数据湖计算和数据湖分析场景,典型案例包括大数据离线分析、实时分析、机器学习以及日志文件分析等。通过DLF提供的统一元数据和存储服务,旨在简化和加速数据湖的构建以及数据治理过程。

产品计费

公测期间您可以免费试用阿里云数据湖构建(DLF)2.0版,免费试用结束后,产品将开始收费。