EMR on ACK支持使用数据湖元数据DLF(Data Lake Formation)和自建Hive Metastore元数据两种方式,为Spark集群设置元数据。本文为您介绍如何在EMR on ACK中设置Spark集群的元数据。

背景信息

因为数据湖元数据DLF具有高可用和易维护的特点,所以以下场景适合使用数据湖元数据:
  • 当您的EMR集群均为生产环境时,您无需维护独立的元数据库。
  • 横向使用多种大数据计算引擎时,元数据可以集中管理。例如,MaxCompute、Hologres和机器学习PAI等。
  • 多个EMR集群时,可以统一管理元数据。

前提条件

  • 已在E-MapReduce on ACK控制台创建Spark集群,详情请参见步骤一:创建集群
  • 使用数据湖元数据DLF方式时,需要确保已开通数据湖构建DLF,详情请参见快速入门
  • 使用自建Hive Metastore元数据方式时,需要确保已自行创建Hive Metastore服务,并且和创建的ACK集群可以网络连通。

方式一:使用数据湖元数据DLF(推荐)

  1. 进入集群详情页面。
    1. 登录阿里云E-MapReduce on ACK控制台
    2. 集群管理页面,单击目标集群的名称。
  2. 集群详情页面的基础信息区域,单击数据湖构建 (DLF)后面的点击启用
  3. 启用DLF对话框中,单击确定
    完成上述配置后,向该Spark集群提交的任务,会自动连接DLF元数据。

方式二:使用自建Hive Metastore元数据

  1. 进入集群的配置页面。
    1. 登录阿里云E-MapReduce on ACK控制台
    2. 集群管理页面,单击目标集群的名称。
    3. 集群详情页面,单击配置页签。
  2. 服务配置区域,单击spark-defaults.conf页签。
  3. 添加自定义配置。
    1. 单击上方的自定义配置
    2. 新增配置项对话框中,单击添加
    3. 添加Key为spark.hadoop.hive.metastore.uris,Value为thrift://<自建Hive的IP地址>:9083的配置项。
      该参数表示Hive Metastore使用Thrift协议连接的URI。参数值请根据您实际情况修改。
    4. 单击确定
    5. 确认修改配置对话框中,输入执行原因,单击确定
  4. 单击保存
  5. 部署客户端配置。
    1. 单击部署客户端配置
    2. config所有组件对话框中,输入执行原因,单击确定
    3. 确认对话框中,单击确定
    完成上述配置后,向该Spark集群提交的任务,会自动连接自建的Hive Metastore。