本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。
本章节主要介绍数据目录(Catalog)的基本能力。
什么是数据目录(Catalog)
数据目录(Catalog)是数据湖构建(Data Lake Formation)的元数据最上层实体,它可以包含多个数据库。
适用场景
主要适用于元数据隔离的场景,比如多个E-MapReduce集群,每个集群绑定不同的Catalog,每个EMR集群间元数据互不可见。
基本操作
新建数据目录(Catalog)
登录数据湖构建控制台。
菜单选择:“元数据-元数据管理”。
切换标签页到“数据目录”。
点击“新建数据目录”。
在输入框中输入如下内容:
目录ID,必选,唯一标识,不可重名。
描述,可选,输入描述信息。
目录路径,可选,输入默认的存储路径,目前仅支持OSS路径。
查询数据目录(Catalog)
登录数据湖构建控制台。
菜单选择:“元数据-元数据管理”。
切换标签页到“数据目录”。
修改数据目录(Catalog)
登录数据湖构建控制台。
菜单选择:“元数据-元数据管理”。
切换标签页到“数据目录”。
针对某一行的数据目录,点击右侧的“编辑”按钮。
在输入框中,修改如下内容:
描述,可选,输入描述信息。
目录路径,可选,输入默认的存储路径,目前仅支持OSS路径。
删除数据目录(Catalog)
请您谨慎选择删除,删除后,数据将不可恢复!
登录数据湖构建控制台。
菜单选择:“元数据-元数据管理”。
切换标签页到“数据目录”。
针对某一行的数据目录,点击右侧的“删除”按钮。
弹出提示确认框后,点击确认,完成catalog删除。
与计算引擎的适配操作
如何修改E-MapReduce集群的数据目录
修改E-MapReduce集群绑定的 DLF Catalog ID后,该集群将会指向新的Catalog ID,在该集群的对原来Catalog的库/表等操作或运行中的作业均会失效。请充分考虑影响后,再进行切换。
Hive引擎配置修改
在Hive/hive-site.xml文件下,新增配置项:dlf.catalog.id
Key=dlf.catalog.id
Value=DLF数据目录ID
依次点击以下2个操作,完成配置部署生效。
保存配置。
部署客户端配置。
点击Hive右侧的更多操作,选择重启,将Hive服务进行重启。
重启成功后,Hive状态变为良好,则Catalog ID修改完成。
Spark配置修改参考上述Hive配置修改并重启服务。
注意:如EMR主版本<=5.6.0/3.40.0,则不需要单独对Spark做此配置修改,它使用Hive的配置,仅修改Hive配置即可。
Presto配置修改参考上述Hive配置修改并重启服务,需注意修改文件为hive.properties(Presto仅限于EMR 5.8.0/3.42.0及以上版本支持该功能)
Impala配置不需要单独对Impala做此修改,它使用Hive的配置,仅修改Hive配置即可。