为Spark集群设置元数据

EMR on ACK支持使用数据湖元数据DLF(Data Lake Formation)和自建Hive Metastore元数据两种方式,为Spark集群设置元数据。本文为您介绍如何在EMR on ACK中设置Spark集群的元数据。

背景信息

因为数据湖元数据DLF具有高可用和易维护的特点,所以以下场景适合使用数据湖元数据:

  • 当您的EMR集群均为生产环境时,您无需维护独立的元数据库。

  • 横向使用多种大数据计算引擎时,元数据可以集中管理。例如,MaxCompute、Hologres和人工智能平台 PAI等。

  • 多个EMR集群时,可以统一管理元数据。

前提条件

  • 已在E-MapReduce on ACK控制台创建Spark集群,详情请参见步骤一:创建集群

  • 使用数据湖元数据DLF方式时,需要确保已开通数据湖构建DLF,详情请参见快速入门

  • 使用自建Hive Metastore元数据方式时,需要确保已自行创建Hive Metastore服务,并且和创建的ACK集群可以网络连通。

方式一:使用数据湖元数据DLF(推荐)

  1. 进入集群详情页面。

    1. 登录EMR on ACK控制台

    2. 在EMR on ACK页面,单击目标集群的名称。

  2. 集群详情页面,单击数据湖构建 (DLF)后面的点击启用

  3. 启用DLF对话框中,单击OK

    完成上述配置后,向该Spark集群提交的任务,会自动连接DLF元数据。

方式二:使用自建Hive Metastore元数据

  1. 进入集群的配置页面。

    1. 登录EMR on ACK控制台

    2. 在EMR on ACK页面,单击目标集群操作列的配置

  2. 配置页签,单击spark-defaults.conf页签。

  3. 添加自定义配置。

    1. 单击上方的新增配置项

    2. 添加Key为spark.hadoop.hive.metastore.uris,Value为thrift://<自建Hive的IP地址>:9083的配置项。

      该参数表示Hive Metastore使用Thrift协议连接的URI。参数值请根据您实际情况修改。

    3. 单击确定

    4. 在弹出的对话框中,输入执行原因,单击保存

  4. 部署客户端配置。

    1. 单击部署客户端配置

    2. 在弹出的对话框中,输入执行原因,单击确定

    3. 确认对话框中,单击确定

    完成上述配置后,向该Spark集群提交的任务,会自动连接自建的Hive Metastore。