功能发布记录

本文为您介绍阿里云数据湖构建(简称DLF)的功能变更。

2024-12版本

推出DLF 2.0 Hive Catalog,支持统一的元数据管理和权限管理,支持纳管OSS-HDFSOSS存储。Hive Catalog所支持的湖表格式兼容 HMS,支持计算引擎使用 Paimon、Iceberg、Delta lake、Hudi 等湖格式。

DLF2.0 Paimon Catalog 推出文件目录(Volume),支持Paimon ObjectTable,帮助一些更新要求不高的场景,实现对文件元数据的管理。

DLF2.0 Paimon Catalog 推出外表管理功能,支持读取外部数据源。

DLF2.0 Paimon Catalog 推出视图管理功能,降低查询的复杂度。

功能分类

功能更新说明

元数据管理

  • Catalog管理:支持创建和管理Hive Catalog

  • 数据库管理:支持Hive Catalog下创建数据库、管理库列表和库详情。

  • 表管理:

    • 支持Hive Catalog下创建表、管理表列表和表详情。

    • 支持Paimon Catalog外表读取外部数据源。

  • 支持Paimon Catalog视图,降低查询的复杂度。

  • 支持Paimon Catalog文件目录(Volume)

    • 支持Paimon ObjectTable管理用户文件元数据

权限管理

  • 支持Hive Catalog权限开关

  • 支持Hive Catalog数据权限配置和OpenAPI权限配置

数据存储

  • Hive Catalog支持纳管存储。

    • 可为用户代理创建全新OSS-HDFS Bucket。

    • 支持用户存量OSS-HDFS/OSS Bucket。

2024-09版本

推出DLF2.0 Paimon Catalog,提供全托管的Paimon元数据及存储服务,支持统一的元数据管理、统一湖表格式、统一存储、统一权限配置,并提供存储概览分析以及存储优化功能。并且与阿里云上多种流批计算引擎、大数据开发平台及AI平台实现了深度集成;支持湖仓存储一体化、流批加工一体化以及大数据与AI一体化的架构;支持所有产品共享一套湖上元数据和存储服务,采用统一的权限配置和存储优化策略。

功能分类

功能更新说明

完成OpenLake解决方案对接

支持EMR Serverless Spark、EMR Serverless StarRocks、实时计算Flink版、MaxCompute、Hologres、DataWorks、PAI、OpenSearch产品的集成。

元数据管理

  • Catalog管理:创建Paimon Catalog、Catalog列表管理、Catalog详情。

  • 数据库管理:创建数据库、库列表管理、库详情。

  • 表管理:创建表、表列表管理、表详情。

权限管理

  • 用户管理:

    • RAM用户或RAM角色列表。

    • DLF角色管理包括admin(数据湖管理员)、super_administrator(超级管理员),以及DLF自建角色。

  • 数据权限配置:

    • Catalog、数据库、表权限配置。

    • 资源Owner配置。

    • 粗粒度数据权限配置(RAM Policy)。

  • OpenAPI权限配置:RAM Policy配置。

数据存储

  • 支持DLF托管存储。

    • 无需额外开通和购买OSS存储。

  • 完全的权限管控

    • 避免直接访问存储,绕过权限配置。

存储分析

  • 元数据和存储使用量及趋势:

    • 存储量及趋势。

    • 库、表、API访问数量及趋势。

  • 元数据和存储使用情况排名:

    • 库、表、API访问数量及趋势。

    • 库、表存储排名。

  • 存储分布情况:

    • 表小文件数量排名。

    • 存储分层分布。

    • 存储格式分布。

    • 文件大小分布。

存储优化

  • 存储优化:

    • 支持Compaction、过期快照清理、过期分区清理、废弃文件清理存储优化策略。

    • 支持启用或停用策略。

    • 支持库表策略继承。

    • 优化任务调度配置。

    • 立即执行优化任务。

    • 优化任务策略配置。

    • 查看执行效果。

    • 查看最近执行历史。

  • 计算资源配置:

    • 新增计算资源。

    • 管理计算资源列表。

    • 连通性测试。