管理数据目录

数据目录是数据湖构建(Data Lake Formation)或 Hive Metastore (HMS) 的元数据最上层实体,可以包含若干个数据库。在EMR Serverless Spark中,您可以通过该功能来查看绑定的数据目录中的数据库和表,还可以添加已有的数据目录。该功能适用于需要实现元数据隔离的场景。

添加数据目录

  1. 进入数据目录页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Serverless > Spark

    3. Spark页面,单击目标工作空间名称。

    4. EMR Serverless Spark页面,单击左侧导航栏中的数据目录

      说明

      数据目录页面为您展示了创建集群时您选择的DLF数据目录下的数据库和表。

  2. 单击添加数据目录

  3. 添加数据目录对话框中,配置以下信息,单击确定

    • DLF数据目录:是一种元数据管理服务,用于管理和查询存储在数据湖中的元数据。通过选择已有的DLF数据目录或创建新的数据目录,您可以快速接入数据湖中的元数据。

      如果您想创建新的DLF数据目录,可以单击创建数据目录,跳转至数据湖构建控制台创建,详情请参见元数据管理

    • 外部Hive Metastore:是一种独立的元数据服务,通常用于管理Hive表的元数据。通过配置该服务,您可以将外部Hive Metastore中的元数据集成到当前环境中。

      使用该方式,需确保Serverless Spark与该服务所在VPC已经连通。

      参数

      说明

      网络连接

      当前环境与外部Hive Metastore所在VPC的网络连接配置。

      在下拉列表中选择已创建的网络连接名称,具体请参见步骤一:新增网络连接

      Metastore服务地址

      外部Hive Metastore的服务地址,格式为thrift://<metastore-host>:<port>

      其中:

      • <metastore-host>:Hive Metastore服务的主机名或IP地址。

      • <port>:Hive Metastore服务的端口号,默认为 9083

查看数据库和表

  1. 数据目录页面,单击数据目录ID。

    展示当前数据目录下的所有数据库信息。

  2. 单击操作列的

    展示当前数据库下的所有数据表信息。

  3. 单击操作列的列信息

    展示当前数据表的表信息和列信息。

相关文档

如果您需要添加外部Metastore服务,请参见连接外部Hive Metastore Service