数据目录是数据湖构建(Data Lake Formation)或 Hive Metastore (HMS) 的元数据最上层实体,可以包含若干个数据库。在EMR Serverless Spark中,您可以通过该功能来查看绑定的数据目录中的数据库和表,还可以添加已有的数据目录。该功能适用于需要实现元数据隔离的场景。
添加数据目录
- 进入数据目录页面。 - 在左侧导航栏,选择。 
- 在Spark页面,单击目标工作空间名称。 
- 在EMR Serverless Spark页面,单击左侧导航栏中的数据目录。 说明- 数据目录页面为您展示了创建集群时您选择的DLF数据目录下的数据库和表。 
 
- 单击添加数据目录。 
- 在添加数据目录对话框中,配置以下信息,单击确定。 - DLF数据目录:是一种元数据管理服务,用于管理和查询存储在数据湖中的元数据。通过选择已有的DLF数据目录或创建新的数据目录,您可以快速接入数据湖中的元数据。 - 如果您想创建新的DLF数据目录,可以单击创建数据目录,跳转至数据湖构建控制台创建,详情请参见元数据管理。 说明- 单个工作空间不支持同时添加多个版本的DLF数据目录。 - 如果您当前工作空间已经添加了DLF 1.0数据目录,使用DLF(之前称为DLF 2.5)数据目录时,可以选择重新创建工作空间,或先移除DLF 1.0数据目录,再重新添加DLF数据目录。在移除之前,请确保当前工作空间内不存在任何正在进行的线上任务使用被移除的数据目录。 
- 使用DLF数据目录时,仅支持使用以下引擎版本:esr-4.3.0及以上版本、esr-3.3.0及以上版本、esr-2.7.0及以上版本。 
 
- 外部Hive Metastore:是一种独立的元数据服务,通常用于管理Hive表的元数据。通过配置该服务,您可以将外部Hive Metastore中的元数据集成到当前环境中。 - 使用该方式,需确保Serverless Spark与该服务所在VPC已经连通。 - 参数 - 说明 - 网络连接 - 当前环境与外部Hive Metastore所在VPC的网络连接配置。 - 在下拉列表中选择已创建的网络连接名称,具体请参见步骤一:新增网络连接。 - Metastore服务地址 - 外部Hive Metastore的服务地址,格式为 - thrift://<metastore-host>:<port>。- 其中: - <metastore-host>:Hive Metastore服务的主机名或IP地址。
- <port>:Hive Metastore服务的端口号,默认为- 9083。
 - Kerberos认证 - 如果您的外部Hive Metastore开启Kerberos认证,您需要指定keytab文件地址,以及Principal名称。 - Kerberos keytab文件地址:Kerberos keytab文件路径。 
- Kerberos principal:keytab文件中包含的Principal的名称,用于与Kerberos服务进行身份验证。 说明- 您可以使用 - klist -kt <keytab文件>命令查看目标keytab文件中Principal的名称。
 
 
查看数据库和表
- 在数据目录页面,单击数据目录ID。 - 展示当前数据目录下的所有数据库信息。 
- 单击操作列的表。 - 展示当前数据库下的所有数据表信息。 
- 单击操作列的列信息。 - 展示当前数据表的表信息和列信息。 
相关文档
如果您需要添加外部Metastore服务,请参见连接外部Hive Metastore Service。