快速入门

本文为您介绍如何快速使用数据-湖构建(Data Lake Formation,DLF)

前提条件

数据湖构建采用OSS作为统一数据湖位置,您需要注册一个OSSBucket或指定OSS路径作为数据湖位置。详情请参见创建存储空间

控制台概览

数据湖构建控制台概览分为2个部分,左侧为主要功能区,右侧为产品主要信息,帮助您快速上手产品。

功能介绍

数据湖构建集成了元数据服务、权限管理、湖管理和数据探索功能,为您提供统一的元数据和权限安全管理以及一键式的数据探索能力。

元数据管理

元数据管理是构建高效数据湖的关键组成部分,通过集中化和系统化的元数据管理,能够显著提升数据资产的价值与可用性。您可以使用该功能管理数据湖中的数据目录、数据库和数据表。

创建数据目录

  1. 登录数据湖构建控制台

  2. 在左侧菜单栏,选择元数据 > 元数据管理

  3. 单击数据目录页签,单击新建数据目录

  4. 在输入框中输入以下内容,单击确定

    • 目录ID:必选,唯一标识,不可重名。

    • 描述:可选,输入描述信息。

    • 目录路径:可选,输入默认的存储路径,目前仅支持OSS路径。

更多关于数据目录的操作,请参见数据目录

创建数据库

  1. 登录数据湖管理控制台

  2. 在左侧菜单栏,选择元数据 > 元数据管理

  3. 单击数据库页签,选择目标数据目录,单击新建数据库

  4. 配置以下数据库信息,单击确定

    • 所属数据目录选择所属数据目录。

    • 数据库名称输入数据库名称。

    • 数据库描述:可选,输入数据库描述。

    • 选择路径输入数据库的位置。

创建数据表

  1. 创建完成数据库后,单击数据表页签,选择目标数据目录库名,单击新建数据表

  2. 配置以下数据表信息,单击确定

    • 数据表名称输入数据表的名称。

    • 所属数据目录选择所属数据目录。

    • 所属数据库选择数据目录下的数据库。

    • 数据表描述可选,输入数据表描述。

    • 数据存储位置选择数据表中数据存储的位置。

    • 格式与序列化选择数据表的数据格式和输出格式。

    • 分割符:可选,当数据格式选择CSV时,选择数据表的分隔符。

    • 手动定义数据表的普通列、分区列,指定列名称、数据类型、描述等信息。

更多关于数据库、数据表的操作,请参见数据库表及函数

元数据抽取

元数据抽取可以分析数据湖中特定格式的数据,并自动生成元数据信息。详情请参见元数据抽取

元数据迁移

元数据迁移可以快速地将Hive Metastore的元数据迁移到数据湖构建(DLF)中。详情请参见元数据迁移

权限管理

数据湖构建(DLF)的权限体系主要分为RAM权限和DLF数据权限控制两大类。如果您要访问DLF的页面或数据,一般都需要通过这两层权限校验,才可以正确的访问到数据资源。

  • RAM权限:主要控制DLF所有OpenAPI的访问权限,决定RAM用户是否可以访问某些DLF OpenAPI或页面。详情请参见权限说明

  • DLF数据权限:主要控制DLF内部资源的访问和使用权限,包括数据库、数据表、数据列、函数、数据目录等,以及数据权限的操作权限。

湖管理

湖管理包括Location托管、存储概览、生命周期管理、湖格式管理以及存储权限等数据湖管理能力,在Location托管后,这些功能将为您提供全面的数据湖管理支持。

  • 通过Location托管功能,您可以将存储在OSS中的数据交由数据湖构建(DLF)进行管理和分析。更多详情,请参见Location托管

  • 存储概览提供了源数据分析和Location分析,帮助您快速掌握当前存储资源的使用状况及潜在问题,便于及时采取优化措施。更多详情,请参见存储概览

  • 配置数据湖内的数据管理规则,请参见生命周期管理

  • 配置湖格式优化策略,请参见湖格式管理

最佳实践

DLF提供了数据湖内统一的元数据管理和权限管理功能。通过与E-MapReduce、FlinkMaxCompute结合,DLF支持实现高效的元数据抽取、迁移以及数据入湖解决方案。