数据目录

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

本章节主要介绍数据目录(Catalog)的基本能力。

什么是数据目录(Catalog)

数据目录(Catalog)是数据湖构建(Data Lake Formation)的元数据最上层实体,它可以包含多个数据库。

适用场景

主要适用于元数据隔离的场景,比如多个E-MapReduce集群,每个集群绑定不同的Catalog,每个EMR集群间元数据互不可见。

基本操作

新建数据目录(Catalog)

  1. 登录数据湖构建控制台。

  2. 菜单选择:“元数据-元数据管理”。

  3. 切换标签页到“数据目录”。

  4. 点击“新建数据目录”。

  5. 在输入框中输入如下内容:

    • 目录ID,必选,唯一标识,不可重名。

    • 描述,可选,输入描述信息。

    • 目录路径,可选,输入默认的存储路径,目前仅支持OSS路径。

  6. 1659087281709-91e5da89-bc9a-423f-940a-a9a3e1ca873d

查询数据目录(Catalog)

  1. 登录数据湖构建控制台。

  2. 菜单选择:“元数据-元数据管理”。

  3. 切换标签页到“数据目录”。

1659087480477-9d2dc6ba-1406-4765-96cb-92c37faddfe5

修改数据目录(Catalog)

  1. 登录数据湖构建控制台。

  2. 菜单选择:“元数据-元数据管理”。

  3. 切换标签页到“数据目录”。

  4. 针对某一行的数据目录,点击右侧的“编辑”按钮。

  5. 在输入框中,修改如下内容:

    • 描述,可选,输入描述信息。

    • 目录路径,可选,输入默认的存储路径,目前仅支持OSS路径。

  6. 1659087611120-e524d27f-76f7-4fcd-bd15-ce98071c1852

删除数据目录(Catalog)

警告

请您谨慎选择删除,删除后,数据将不可恢复!

  1. 登录数据湖构建控制台。

  2. 菜单选择:“元数据-元数据管理”。

  3. 切换标签页到“数据目录”。

  4. 针对某一行的数据目录,点击右侧的“删除”按钮。

  5. 弹出提示确认框后,点击确认,完成catalog删除。

与计算引擎的适配操作

如何修改E-MapReduce集群的数据目录

重要

修改E-MapReduce集群绑定的 DLF Catalog ID后,该集群将会指向新的Catalog ID,在该集群的对原来Catalog的库/表等操作或运行中的作业均会失效。请充分考虑影响后,再进行切换。

  • Hive引擎配置修改

    • 在Hive/hive-site.xml文件下,新增配置项:dlf.catalog.id

    • Key=dlf.catalog.id

      Value=DLF数据目录ID

  • 1659088992698-d4b5def7-326b-4439-b233-8c675b173fbe

      • 依次点击以下2个操作,完成配置部署生效。

        • 保存配置。

        • 部署客户端配置。

    • 1659089286630-f4bb07e8-c240-479e-a2a8-be2f82aa43de

      • 点击Hive右侧的更多操作,选择重启,将Hive服务进行重启。

    • 1659089384607-e61b7722-2213-436c-9d1d-0715aeb4025e

      • 重启成功后,Hive状态变为良好,则Catalog ID修改完成。

说明
  • Spark配置修改参考上述Hive配置修改并重启服务。

    • 注意:如EMR主版本<=5.6.0/3.40.0,则不需要单独对Spark做此配置修改,它使用Hive的配置,仅修改Hive配置即可。

  • Presto配置修改参考上述Hive配置修改并重启服务,需注意修改文件为hive.properties(Presto仅限于EMR 5.8.0/3.42.0及以上版本支持该功能)

  • Impala配置不需要单独对Impala做此修改,它使用Hive的配置,仅修改Hive配置即可。