使用Amazon EMR作为元仓引擎进行元仓初始化

Dataphin元数据仓库(简称:元仓),是统一管理Dataphin内部业务元数据和相应计算引擎元数据的数据仓库,存在于Dataphin元仓租户中(OPS租户)的一个Dataphin项目空间中,由一系列的周期性数据集成节点、SQL脚本节点、Shell节点组成。元仓初始化即配置Dataphin系统的计算引擎类型并初始化元数据的过程。本文将为您介绍如何使用Amazon EMR作为元仓计算引擎进行元仓初始化。

使用限制

系统仅支持元仓租户超级管理员系统管理员角色的账号初始化系统。

重要

请妥善保管元仓租户超级管理员系统管理员的账号和密码。同时,元仓租户超级管理员账号登录系统后,请谨慎操作。

操作步骤

  1. Dataphin首页的顶部菜单栏中,选择管理中心 > 系统设置

  2. 在左侧导航栏中选择系统运维 > 元仓设置

  3. 元仓设置配置向导页面,单击开始

  4. 在选择初始化引擎类型步骤中,选择Amazon EMR引擎类型。

    重要

    若元仓已经初始化,则默认选择上次初始化成功的元仓。当切换成不兼容的计算引擎时,会导致治理功能不可用。

  5. 单击下一步

  6. 参数配置页面,配置以下参数。

    参数

    描述

    主节点公有DNS

    通过公有DNS获取VPC私有DNS,HiveSpark均通过私有DNS连接,格式为ec2-<public_ip>.<region>.compute.amazonaws.com

    密钥文件(*.pem)

    访问主节点ec2的密钥对(新建EMR集群时所设定的密钥对)。

    core-site.xml

    可自行上传相关集群配置文件,或单击获取集群配置(需先填写主节点公有DNS并上传密钥文件),从主节点下载相关文件。

    yarn-site.xml

    hive-site.xml

    hdfs-site.xml

    集群存储

    当前仅可选择HDFS

    元数据获取方式

    可选择HMSAmazon Glue

    • HMS:默认选择HMS。

    • Amazon Glue:选择Amazon Glue后,还需配置Glue Region Code、Glue AccessKey ID、Glue AccessKey Secret。

      • Glue Region Code:输入Amazon GlueRegion Code,例如ap-northeast-3,us-east-1,us-west-1。

      • Glue AccessKey IDGlue AccessKey Secret:输入Amazon Glue的访问AccessKey IDAccessKey Secret。

    引擎类型

    可选择HiveSpark。选择Hive后,还需输入Hive JDBC URL;选择Spark还需输入Spark JDBC URL。

    • Hive JDBC URL:输入HiveJDBC连接地址,或自动获取连接地址(需先填写主节点公有DNS并上传密钥文件)。Hive JDBC URL格式为jdbc:hive2//host1:port1,host2:post2/,无需填写Database name。

    • Spark JDBC URL:输入SparkJDBC连接地址,格式为jdbc:hive2//host1:port1/jdbc:kyuubi://host1:port1/,无需填写Database name。

    用户名

    HiveSpark的指定用户名,此用户名将设置为JDBCusername

    Database

    填写Amazon EMR计算引擎的Database名称。

    元数据生产项目

    输入Dataphin内的元仓项目名称,此项目用于元数据生产和加工。

  7. 单击测试连接。连接测试通过后,单击下一步

  8. 在初始化页面,单击开始

    说明

    初始化系统约15分钟左右,请您耐心等待。

  9. 页面提示执行成功后,单击完成,即可完成配置。

后续步骤

完成系统的元数据初始化后,即可设置Dataphin实例的计算引擎。设置方法请参见计算设置