阿里云数据湖构建(Data Lake Formation,简称DLF)是一款全托管的统一元数据和数据存储及管理平台,为客户提供元数据管理、存储管理、权限管理、存储分析和存储优化等功能。DLF与多个阿里云大数据计算引擎无缝对接,打破数据孤岛,帮助用户快速实现云原生数据湖及OpenLake解决方案的构建与管理。该平台能够实现元数据的统一、湖表格式的统一以及数据存储的统一,显著简化客户在数据湖构建和管理过程中的运维工作,助力企业聚焦于业务创新和数据洞察。
产品特性
统一元数据与存储
大数据计算引擎和AI产品共享一套湖上元数据和存储,且数据可在环湖产品间流动。
统一权限管理
大数据计算引擎与AI产品共享一套湖表权限配置,实现一次配置,多处生效。
存储分析与优化
支持存储使用趋势分析与文件分布分析,提供小文件合并、过期快照清理、分区整理及废弃文件清理等优化策略,提升存储效率。
完善的云生态支持体系
深度整合阿里云产品,包括流批计算引擎、大数据开发平台及AI平台,实现开箱即用,提升用户体验与操作便捷性。
产品架构
元数据管理:通过控制台查看和管理数据湖中的元数据库及其表的信息,采用新增元数据库的方式对元数据进行操作,并将其集成到第三方应用服务中。
权限管理:能够加强湖上数据的权限控制,以保障数据的安全性。支持对Catalog、元数据库以及元数据表三种粒度的权限管理。
存储分析:将为您提供湖内数据存储的概览分析,包括存储使用趋势、资源存储量排名以及存储格式分布等信息,以便于您进行数据运维管理。
存储优化:支持小文件合并、过期快照清理、过期分区清理及废弃碎片文件清理等湖表优化策略,以降低使用成本并提高查询效率。
产品优势
全托管服务:Paimon元数据与存储服务统一管理,开箱即用,免去运维负担,支持数据开发与治理的全周期。
企业级安全:提供API权限和数据权限的双重管理,支持多样的权限控制点,确保数据安全与合规。
灵活的优化策略:支持文件合并、数据清理等多种灵活的湖表优化策略,显著提升访问性能,降低存储成本。
领先的开源生态:深度集成Paimon,提供全托管的元数据与存储管理,并与阿里云的计算引擎及AI产品无缝对接,构建强大的生态系统。
应用场景
Lakehouse场景
Lakehouse结合了数据仓库与数据湖的优点,提供了一套能够处理多样化数据类型并保持高性能分析能力的架构。企业可以利用Lakehouse处理大量历史数据、实时数据及多种类型的数据。此外,处理后的数据可以作为共享资源,实现各个团队的按需访问,同时确保数据的安全性。
传统大数据场景
适用于数据湖计算和数据湖分析场景,典型案例包括大数据离线分析、实时分析、机器学习以及日志文件分析等。通过DLF提供的统一元数据和存储服务,旨在简化和加速数据湖的构建以及数据治理过程。
产品计费
公测期间您可以免费试用阿里云数据湖构建(DLF)2.0版,免费试用结束后,产品将开始收费。