Dataphin元数据仓库(简称:元仓),是统一管理Dataphin内部业务元数据和相应计算引擎元数据的数据仓库,存在于Dataphin元仓租户中(OPS租户)的一个Dataphin项目空间中,由一系列的周期性数据集成节点、SQL脚本节点、Shell节点组成。元仓初始化即配置Dataphin系统的计算引擎类型并初始化元数据的过程。本文将为您介绍如何使用星环TDH作为元仓计算引擎进行元仓初始化。
前提条件
以星环TDH作为元仓时,需开放元数据库或提供Hive Metastore服务,用于获取元数据。
以TDH Inceptor作为元仓,或元仓初始化中的元数据库配置使用TDH Incepor作为元数据库获取方式时,需要具备以下条件:
已在TDH Inceptor中创建dataphin_meta的项目。
元仓初始化中TDH Inceptor配置的用户,需具备dataphin_meta项目的写入表及创建表的权限。
客户引擎的账号需要有对dataphin_meta项目的物化表有读取的权限。
背景信息
Dataphin支持通过直连元数据库或Hive Metastore Service服务方式获取元数据。各方式获取元数据优劣势对比详情如下:
元数据获取方式 | 优势与劣势 |
直连元数据库 | 高性能:直接连接底层的元数据库,省去了中间的HMS服务环节,客户端在获取meta(元数据)时性能更好,同时能够减少网络传输上的耗时。 更开放:通过HMS服务查询metastore,只能使用metastoreclient提供的几种方法进行查询。而直接连接元数据库后,可以自由使用SQL进行查询。 |
Hive Metastore Service服务 | 更安全:可以为metastore开启kerberos认证,客户端需要进行kerberos认证才能读取到metastore中的数据。 更灵活:客户端仅感知到HMS服务,并不能感知到后台的元数据库。因此底层的原数据库可以随时进行切换,而对应的客户端无需变更。 |
使用限制
系统仅支持元仓租户超级管理员或系统管理员角色的账号初始化系统。
请妥善保管元仓租户超级管理员或系统管理员的账号和密码。同时,元仓租户超级管理员账号登录系统后,请谨慎操作。
操作步骤
在Dataphin首页,单击顶部菜单栏的管理中心。
按照下图操作指引,在元数据部署配置向导页面,单击开始。
在选择初始化引擎类型页面,选择星环TDH 6.x引擎类型。
重要若元仓已经初始化,则默认选择上次初始化成功的元仓。当切换成不兼容的计算引擎时,会导致治理功能不可用。
单击下一步。
在参数配置页面,配置星环TDH 6.x计算引擎参数。
区域
参数
描述
集群配置
NameNode
NameNode用于管理HDFS中的文件系统名称空间及外部客户机的访问权限。
单击新增。
在新增NameNode对话框,填写NameNode的Hostname名称以及端口号,单击确定。
填写后自动生成对应的格式,例如
host=start,webUiPort=50070,ipcPort=8020
。
配置文件
上传集群配置文件,用于配置集群参数。系统支持上传core-site.xml、hdfs-site.xml等集群配置文件。
History Log
配置集群的日志路径。例如
tmp/hadoop-yarn/staging/history/done
。认证方式
支持无认证和Kerberos认证方式。Kerberos是一种基于对称密钥技术的身份认证协议,常用于集群各组件间的认证。开启Kerberos能够提升集群的安全性。
K如果您选择开启Kerberos认证,需配置Kerberos配置方式和HDFS。
Kerberos配置方式
KDC Server:需输入KDC统一服务地址,辅助完成Kerberos认证。支持配置多个地址,使用英文逗号(,)分隔。
krb5文件配置:需要上传Krb5文件进行Kerberos认证。
HDFS Keytab File:需上传HDFS Keytab文件。
HDFS Principal:输入Kerberos认证的Principal名。例如
XXXX/hadoopclient@xxx.xxx
。
Inceptor配置
JDBC URL
填写链接Inceptor的JDBC URL。
认证方式
选择Inceptor的认证文件。您需要根据引擎情况进行选择,支持选择无认证、LDAP、Kerberos:
无认证:即没有认证。需配置访问Inceptor的用户名和密码。
LDAP:LDAP认证。需配置访问Inceptor的用户名和密码。
Kerberos:集群的认证方式需为Kerberos。Kerberos任务需要上传Keytab File认证文件及配置Principal地址。
Keytab File:上传Keytab File文件进行Kerberos认证。
Principal:Kerberos认证的Principal名。
元数据库配置
元数据获取方式
支持元数据库和HMS(Hive Metastore Serivce)方式获取元数据。使用HMS方式获取元数据库,若集群配置认证方式为Kerberos,需上传Keytab File文件和填写Principal。
Keytab File:Hive metastore的Kerberos认证的Keytabl文件。
Principal:Hive metastore的Kerberos认证的Principal。
数据库类型
元数据库方式获取元数据,需配置该参数。系统支持MySQL、PostgreSQL、Inceptor。
MySQL:可选择的版本为5.1.43、5.6/5.7和8.0版本。
Inceptor:支持无认证、LDAP、Kerberos认证方式。
JDBC URL
填写目标数据库JDBC的连接地址。例如:
MySQL数据库的连接地址格式为
jdbc:mysql://host:port/dbname
。Inceptor数据库的连接地址格式为
jdbc:hive2://host:port/dbname
。用户名、密码
目标数据库的用户名和密码。若Inceptor数据库认证方式为无认证仅需填写用户名;Kerberos认证方式需上传Keytab File文件和填写Principal。
元数据生产项目
Meta Project
用于元数据生产,加工的逻辑项目空间。推荐配置为dataphin_meta,重新初始化时请保持名称不变,否则初始化失败。
单击测试连接。连接测试通过后,单击下一步。
在初始化页面,单击开始。
说明初始化系统约15分钟左右,请您耐心等待。
页面提示执行成功后,单击完成,即可完成配置。
后续步骤
完成系统的元数据初始化后,即可设置Dataphin实例的计算引擎。设置方法请参见计算设置概述。