Dataphin元数据仓库(简称:元仓),是统一管理Dataphin内部业务元数据和相应计算引擎元数据的数据仓库,存在于Dataphin元仓租户中(OPS租户)的一个Dataphin项目空间中,由一系列的周期性数据集成节点、SQL脚本节点、Shell节点组成。元仓初始化即配置Dataphin系统的计算引擎类型并初始化元数据的过程。本文将为您介绍如何使用Amazon EMR作为元仓计算引擎进行元仓初始化。
使用限制
系统仅支持元仓租户超级管理员或系统管理员角色的账号初始化系统。
请妥善保管元仓租户超级管理员或系统管理员的账号和密码。同时,元仓租户超级管理员账号登录系统后,请谨慎操作。
操作步骤
在Dataphin首页的顶部菜单栏中,选择管理中心 > 系统设置。
在左侧导航栏中选择系统运维 > 元仓设置。
在元仓设置配置向导页面,单击开始。
在选择初始化引擎类型步骤中,选择Amazon EMR引擎类型。
重要若元仓已经初始化,则默认选择上次初始化成功的元仓。当切换成不兼容的计算引擎时,会导致治理功能不可用。
单击下一步。
在参数配置页面,配置以下参数。
参数
描述
主节点公有DNS
通过公有DNS获取VPC私有DNS,Hive及Spark均通过私有DNS连接,格式为
ec2-<public_ip>.<region>.compute.amazonaws.com
。密钥文件(*.pem)
访问主节点ec2的密钥对(新建EMR集群时所设定的密钥对)。
core-site.xml
可自行上传相关集群配置文件,或单击获取集群配置(需先填写主节点公有DNS并上传密钥文件),从主节点下载相关文件。
yarn-site.xml
hive-site.xml
hdfs-site.xml
集群存储
当前仅可选择HDFS。
元数据获取方式
可选择HMS或Amazon Glue。
HMS:默认选择HMS。
Amazon Glue:选择Amazon Glue后,还需配置Glue Region Code、Glue AccessKey ID、Glue AccessKey Secret。
Glue Region Code:输入Amazon Glue的Region Code,例如ap-northeast-3,us-east-1,us-west-1。
Glue AccessKey ID、Glue AccessKey Secret:输入Amazon Glue的访问AccessKey ID和AccessKey Secret。
引擎类型
可选择Hive或Spark。选择Hive后,还需输入Hive JDBC URL;选择Spark还需输入Spark JDBC URL。
Hive JDBC URL:输入Hive的JDBC连接地址,或自动获取连接地址(需先填写主节点公有DNS并上传密钥文件)。Hive JDBC URL格式为
jdbc:hive2//host1:port1,host2:post2/
,无需填写Database name。Spark JDBC URL:输入Spark的JDBC连接地址,格式为
jdbc:hive2//host1:port1/
或jdbc:kyuubi://host1:port1/
,无需填写Database name。
用户名
Hive或Spark的指定用户名,此用户名将设置为JDBC的
username
。Database
填写Amazon EMR计算引擎的Database名称。
元数据生产项目
输入Dataphin内的元仓项目名称,此项目用于元数据生产和加工。
单击测试连接。连接测试通过后,单击下一步。
在初始化页面,单击开始。
说明初始化系统约15分钟左右,请您耐心等待。
页面提示执行成功后,单击完成,即可完成配置。
后续步骤
完成系统的元数据初始化后,即可设置Dataphin实例的计算引擎。设置方法请参见计算设置。