使用星环TDH作为元仓计算引擎进行元仓初始化

Dataphin元数据仓库(简称:元仓),是统一管理Dataphin内部业务元数据和相应计算引擎元数据的数据仓库,存在于Dataphin元仓租户中(OPS租户)的一个Dataphin项目空间中,由一系列的周期性数据集成节点、SQL脚本节点、Shell节点组成。元仓初始化即配置Dataphin系统的计算引擎类型并初始化元数据的过程。本文将为您介绍如何使用星环TDH作为元仓计算引擎进行元仓初始化。

前提条件

  • 以星环TDH作为元仓时,需开放元数据库或提供Hive Metastore服务,用于获取元数据。

  • 以TDH Inceptor作为元仓,或元仓初始化中的元数据库配置使用TDH Incepor作为元数据库获取方式时,需要具备以下条件:

    • 已在TDH Inceptor中创建dataphin_meta的项目。

    • 元仓初始化中TDH Inceptor配置的用户,需具备dataphin_meta项目的写入表及创建表的权限。

    • 客户引擎的账号需要有对dataphin_meta项目的物化表有读取的权限。

      image

背景信息

Dataphin支持通过直连元数据库或Hive Metastore Service服务方式获取元数据。各方式获取元数据优劣势对比详情如下:

image

元数据获取方式

优势与劣势

直连元数据库

高性能:直接连接底层的元数据库,省去了中间的HMS服务环节,客户端在获取meta(元数据)时性能更好,同时能够减少网络传输上的耗时。

更开放:通过HMS服务查询metastore,只能使用metastoreclient提供的几种方法进行查询。而直接连接元数据库后,可以自由使用SQL进行查询。

Hive Metastore Service服务

更安全:可以为metastore开启kerberos认证,客户端需要进行kerberos认证才能读取到metastore中的数据。

更灵活:客户端仅感知到HMS服务,并不能感知到后台的元数据库。因此底层的原数据库可以随时进行切换,而对应的客户端无需变更。

使用限制

系统仅支持元仓租户超级管理员系统管理员角色的账号初始化系统。

重要

请妥善保管元仓租户超级管理员系统管理员的账号和密码。同时,元仓租户超级管理员账号登录系统后,请谨慎操作。

操作步骤

  1. 在Dataphin首页,单击顶部菜单栏的管理中心

  2. 按照下图操作指引,在元数据部署配置向导页面,单击开始

    image..png

  3. 在选择初始化引擎类型页面,选择星环TDH 6.x引擎类型。

    image..png

    重要

    若元仓已经初始化,则默认选择上次初始化成功的元仓。当切换成不兼容的计算引擎时,会导致治理功能不可用。

  4. 单击下一步

  5. 在参数配置页面,配置星环TDH 6.x计算引擎参数。

    image

    区域

    参数

    描述

    集群配置

    NameNode

    NameNode用于管理HDFS中的文件系统名称空间及外部客户机的访问权限。

    1. 单击新增

    2. 新增NameNode对话框,填写NameNode的Hostname名称以及端口号,单击确定。

      填写后自动生成对应的格式,例如host=start,webUiPort=50070,ipcPort=8020

    配置文件

    上传集群配置文件,用于配置集群参数。系统支持上传core-site.xml、hdfs-site.xml等集群配置文件。

    History Log

    配置集群的日志路径。例如tmp/hadoop-yarn/staging/history/done

    认证方式

    支持无认证和Kerberos认证方式。Kerberos是一种基于对称密钥技术的身份认证协议,常用于集群各组件间的认证。开启Kerberos能够提升集群的安全性。

    K如果您选择开启Kerberos认证,需配置Kerberos配置方式HDFS

    image

    • Kerberos配置方式

      • KDC Server:需输入KDC统一服务地址,辅助完成Kerberos认证。支持配置多个地址,使用英文逗号(,)分隔。

      • krb5文件配置:需要上传Krb5文件进行Kerberos认证。

    • HDFS Keytab File:需上传HDFS Keytab文件。

    • HDFS Principal:输入Kerberos认证的Principal名。例如XXXX/hadoopclient@xxx.xxx

    Inceptor配置

    JDBC URL

    填写链接Inceptor的JDBC URL。

    认证方式

    选择Inceptor的认证文件。您需要根据引擎情况进行选择,支持选择无认证LDAPKerberos

    • 无认证:即没有认证。需配置访问Inceptor的用户名和密码。

    • LDAP:LDAP认证。需配置访问Inceptor的用户名和密码。

    • Kerberos:集群的认证方式需为Kerberos。Kerberos任务需要上传Keytab File认证文件及配置Principal地址。

      • Keytab File:上传Keytab File文件进行Kerberos认证。

      • Principal:Kerberos认证的Principal名。

    元数据库配置

    元数据获取方式

    支持元数据库和HMS(Hive Metastore Serivce)方式获取元数据。使用HMS方式获取元数据库,若集群配置认证方式为Kerberos,需上传Keytab File文件和填写Principal。

    image

    • Keytab File:Hive metastore的Kerberos认证的Keytabl文件。

    • Principal:Hive metastore的Kerberos认证的Principal。

    数据库类型

    元数据库方式获取元数据,需配置该参数。系统支持MySQLPostgreSQL、Inceptor

    MySQL:可选择的版本为5.1.435.6/5.78.0版本。

    Inceptor支持无认证、LDAP、Kerberos认证方式。

    JDBC URL

    填写目标数据库JDBC的连接地址。例如:

    MySQL数据库的连接地址格式为jdbc:mysql://host:port/dbname

    Inceptor数据库的连接地址格式为jdbc:hive2://host:port/dbname

    用户名密码

    目标数据库的用户名和密码。若Inceptor数据库认证方式为无认证仅需填写用户名;Kerberos认证方式需上传Keytab File文件和填写Principal。

    元数据生产项目

    Meta Project

    用于元数据生产,加工的逻辑项目空间。推荐配置为dataphin_meta,重新初始化时请保持名称不变,否则初始化失败。

  6. 单击测试连接。连接测试通过后,单击下一步

  7. 在初始化页面,单击开始

    说明

    初始化系统约15分钟左右,请您耐心等待。

  8. 页面提示执行成功后,单击完成,即可完成配置。

后续步骤

完成系统的元数据初始化后,即可设置Dataphin实例的计算引擎。设置方法请参见计算设置概述