EMR Serverless Spark连接外部Hive Metastore_开源大数据平台 E-MapReduce(EMR)-阿里云帮助中心

EMR Serverless Spark支持连接外部Hive Metastore服务，您可以便捷地访问存储在Hive Metastore中的数据。本文将介绍如何在EMR Serverless Spark中配置和连接外部Hive Metastore服务，以便在工作环境中高效管理和利用数据资源。

前提条件

已创建工作空间和SQL会话，详情请参见创建工作空间和管理SQL会话。

使用限制

使用Hive Metastore需要您重启工作空间中现有的会话。
设置Hive Metastore为默认Catalog后，您的工作流任务将默认依赖于Hive Metastore。

操作流程

步骤一：准备Hive Metastore服务

说明

本文采用EMR on ECS的Hive Metastore作为外部服务，如果您的VPC内已经有Hive Metastore服务，则请忽略该步骤。

在EMR on ECS页面创建包含Hive服务，元数据为内置MySQL的DataLake集群，详情请参见创建集群。
使用SSH方式登录集群的Master节点，详情请参见登录集群。
执行以下命令，进入Hive命令行。
```
hive
```

执行以下命令，创建一个指向OSS的表（dw_users）并写入数据。

CREATE TABLE `dw_users`(
  `name` string)
LOCATION
  'oss://<yourBucket>/path/to/file';

INSERT INTO dw_users select 'Bob';

步骤二：新增网络连接

进入网络连接页面。
1. 登录E-MapReduce控制台。
2. 在左侧导航栏，选择EMR Serverless > Spark。
3. 在Spark页面，单击目标工作空间名称。
4. 在EMR Serverless Spark页面，单击左侧导航栏中的网络连接。
在网络连接页面，单击新增网络连接。
在新增网络连接对话框中，配置以下信息，单击确定。
参数
说明
连接名称
输入新增连接的名称。
专有网络
选择与EMR集群相同的专有网络。
交换机
选择与EMR集群部署在同一专有网络下的相同交换机。
当状态显示为已成功时，表示新增网络连接成功。

步骤三：开放Hive Metastore服务端口

获取已创建网络连接中指定交换机的网段。
您可以登录专有网络管理控制台，在交换机页面获取交换机的网段。

添加安全组规则。

登录EMR on ECS控制台。
在EMR on ECS页面，单击目标集群的集群ID。
在基础信息页面，单击集群安全组后面的链接。

在安全组页面，单击手动添加，填写端口范围和授权对象，然后单击保存。

参数	说明
端口范围	填写9083端口。
授权对象	填写前一步骤中获取的指定交换机的网段。重要为防止被外部的用户攻击导致安全问题，授权对象禁止填写为0.0.0.0/0。

步骤四：连接Hive Metastore

在EMR Serverless Spark页面，单击左侧导航栏中的数据目录。
在数据目录页面，单击添加数据目录。

在弹出的对话框中，单击外部Hive Metastore，配置以下信息，单击确定。

参数

说明

网络连接

选择步骤二中新增的网络连接。

Metastore服务地址

Hive MetaStore的URI。格式为thrift://<Hive metastore的IP地址>:9083。

<Hive metastore的IP地址>为HMS服务的内网IP地址。本示例为EMR集群Master节点的内网IP，您可以在EMR集群的节点管理页面中查看。

步骤五：使用Hive Metastore

在数据目录页面，单击hive_metastore操作列的设为默认，设置hive_metastore为工作空间的默认数据目录。
重启SQL会话。
如果您的工作空间中已有SQL会话，您需先停止SQL会话，然后再启动SQL会话，以确保hive_metastore生效。
在SQL开发中查询hive_metastore表的数据。
1. 新建SQL开发，详情请参见SQL开发。
2. 执行以下命令，查询hive_metastore中的dw_users表。
```
SELECT * FROM dw_users;
```

常见问题

如何访问HDFS数据？

根据HDFS集群是否配置了高可用（HA）模式，需要采取不同的配置策略。

非HA HDFS路径访问
当表的location指向一个没有启用高可用配置的HDFS路径时，由于只有一个NameNode负责管理文件系统的命名空间，因此，不需要特别的配置即可直接访问数据。
HA HDFS路径访问
如果表的location指向的是一个启用了高可用的HDFS路径，由于存在多个NameNode，需要在会话实例的Spark配置中额外配置以下内容，以确保Java Runtime或Fusion引擎能够正常访问数据。
Java Runtime访问HDFS数据
在EMR集群的集群服务页面的HDFS服务的配置页签，参照hdfs-site.xml中内容新增下面的配置。
说明
在控制台查看配置项时，需去掉配置项中的spark.hadoop.前缀。
以下配置项的值仅为示例，具体以控制台查询结果为准。
```
spark.hadoop.dfs.namenode.rpc-address.hdfs-cluster.nn1  master-1-1.<cluster-id>.<region>.emr.aliyuncs.com:***
spark.hadoop.dfs.nameservices                       hdfs-cluster
spark.hadoop.dfs.ha.namenodes.hdfs-cluster          nn1,nn2,nn3
spark.hadoop.dfs.client.failover.proxy.provider.hdfs-cluster  org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
```
例如，在EMR控制台查看配置信息。
Fusion引擎访问HDFS数据
1. 在EMR集群的集群服务页面的HDFS服务的配置页签，参照hdfs-site.xml中内容新增下面的配置。
  说明
  在控制台查看配置项时，需去掉配置项中的spark.hadoop.前缀。
  以下配置项的值仅为示例，具体以控制台查询结果为准。
```
spark.hadoop.dfs.namenode.rpc-address.hdfs-cluster.nn1  master-1-1.<cluster-id>.<region>.emr.aliyuncs.com:****
spark.hadoop.dfs.nameservices                       hdfs-cluster
spark.hadoop.dfs.ha.namenodes.hdfs-cluster          nn1,nn2,nn3
spark.hadoop.dfs.client.failover.proxy.provider.hdfs-cluster  org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
```
  例如，在EMR控制台查看配置信息。
2. 将集群的HDFS服务的hdfs-site.xml文件拷贝到OSS上，并重命名为hdfs-client.xml。例如，oss://<bucket>/tmp/hdfs-client.xml。
  关于配置文件路径，请参见常用文件路径。
3. 再在会话实例的Spark配置中额外新增以下内容。
```
spark.files                                         oss://<bucket>/tmp/hdfs-client.xml
spark.executorEnv.LIBHDFS3_CONF                     /opt/spark/work-dir/hdfs-client.xml
```

参数	说明
连接名称	输入新增连接的名称。
专有网络	选择与EMR集群相同的专有网络。
交换机	选择与EMR集群部署在同一专有网络下的相同交换机。