元数据中心设置

所有租户的元数据采集任务将统一在元仓租户中运行,在使用元数据中心功能前,您需要先在元仓租户中完成元数据中心的初始化设置,指定元数据采集任务运行时计算源信息。本文为您介绍如何进行元数据中心设置。

使用限制

  • 元数据中心设置的计算引擎类型需和元仓设置的引擎类型一致。

  • MaxCompute、E-MapReduce5.x Hadoop、E-MapReduce3.x HadoopCDH5.x Hadoop、CDH6.x Hadoop、Cloudera Data Platform 7.x、华为 FusionInsight 8.x Hadoop、亚信DP5.3 Hadoop计算引擎支持使用元数据中心功能。

  • 完成元数据中心初始化配置后,不支持重新初始化。

权限说明

支持元仓租户的超级管理员或系统管理员进行元数据中心初始化配置。

名词解释

  • 元数据:是关于数据的数据,包括技术、业务、管理元数据。它描述了数据的特性、来源、格式和关系等信息,以便于数据的检索、使用和维护。

  • 元数据中心:负责从各业务系统中抽取、加工、集中存储和管理元数据,以支持数据治理,并加强组织内部数据的组织、检索和分析能力。

元数据中心初始化配置

  1. 使用元仓租户的超级管理员或系统管理员账号,登录元仓租户。

  2. Dataphin首页,选择顶部菜单栏的管理中心 > 系统设置

  3. 单击左侧导航栏系统运维下的元数据中心设置,进入元数据中心初始化配置页面。

  4. 您需根据元仓设置的计算引擎选择元数据中心初始化的计算源类型,支持MaxComputeHadoop下的计算引擎。

    MaxCompute

    参数

    描述

    计算源类型

    选择MaxCompute计算引擎。

    Endpoint

    配置Dataphin实例所在MaxCompute地域的Endpoint。不同地域和不同网络类型的MaxComputeEndpoint详情请参见MaxCompute Endpoint

    Project Name

    此处为MaxCompute项目名称,非DataWorks工作空间名称。

    您可以登录MaxCompute控制台,左上角切换地域后,即可在项目管理页签查看到具体的MaxCompute项目名。image

    AccessKey IDAccess Key Secret

    填写可以访问MaxCompute项目的账号的AccessKey IDAccessKey Secret。

    您可在用户信息管理页面,获取账号的AccessKey IDAccessKey Secret。

    image

    • 为了保证Dataphin项目空间与MaxCompute项目正常连接,建议填写MaxCompute项目管理员的AccessKey。

    • 为了保证元数据正常采集,请尽量不修改MaxCompute项目的AccessKey。

    Hadoop

    • 计算源类型

      • HDFS集群存储:支持选择E-MapReduce5.x HadoopE-MapReduce3.x HadoopCDH5.x HadoopCDH6.x HadoopCloudera Data Platform 7.x华为 FusionInsight 8.x Hadoop亚信DP5.3 Hadoop计算引擎。

      • OSS-HDFS集群存储:仅支持E-MapReduce5.x Hadoop计算引擎。

    • 集群配置

      HDFS集群存储

      参数

      描述

      NameNode

      NameNode用于管理HDFS中的文件系统名称空间及外部客户端的访问权限。

      1. 单击新增

      2. 新增NameNode对话框,填写NameNodeHostname名称以及端口号,单击确定

        填写后自动生成对应的格式,例如host=hostname,webUiPort=50070,ipcPort=8020

      配置文件

      • 上传集群配置文件,用于配置集群参数。系统支持上传core-site.xml、hdfs-site.xml等集群配置文件。

      • 若需使用HMS方式获取元数据,配置文件中必需上传hdfs-site.xml、hive-site.xml、core-site xmI 、hivemetastore-site.xml文件。若计算引擎类型为FusionInsight 8.XE-MapReduce5.x Hadoop,还需上传hivemetastore-site.xml文件。

      History Log

      配置集群的日志路径。例如tmp/hadoop-yarn/staging/history/done

      认证方式

      支持无认证Kerberos认证方式。Kerberos是一种基于对称密钥技术的身份认证协议,常用于集群各组件间的认证。开启Kerberos能够提升集群的安全性。

      如果您选择开启Kerberos认证,需配置以下参数:

      image

      • Kerberos配置方式

        • KDC Server:需输入KDC统一服务地址,辅助完成Kerberos认证。

        • krb5文件配置:需要上传Krb5文件进行Kerberos认证。

      • HDFS配置

        • HDFS Keytab File:需上传HDFS Keytab文件。

        • HDFS Principal:输入Kerberos认证的Principal名。例如XXXX/hadoopclient@xxx.xxx

      OSS-HDFS集群存储

      参数

      描述

      集群存储

      可以通过以下方式查看集群存储类型。

      • 未创建集群:可以通过E-MapReduce5.x Hadoop集群创建页面查看所创建的集群存储类型。如下图所示:

        image.png

      • 已创建集群:可以通过E-MapReduce5.x Hadoop集群的详情页查看所创建的集群存储类型。如下图所示:

        image

      集群存储根目录

      填写集群存储根目录。可以通过查看E-MapReduce5.x Hadoop集群信息进行获取。如下图所示:

      image

      重要

      若填写的路径中包括Endpoint,则Dataphin默认使用该Endpoint;若不包含,则使用core-site.xml中配置的Bucket级别的Endpoint;若未配置Bucket级别的Endpoint,则使用core-site.xml中的全局Endpoint。更多信息。请参见阿里云OSS-HDFS服务(JindoFS 服务)Endpoint配置

      配置文件

      上传集群配置文件,用于配置集群参数。系统支持上传core-site.xml、hive-site.xml等集群配置文件。若需使用HMS方式获取元数据,配置文件中必须上传hive-site.xml、core-site.xml、hivemetastore-site.xml文件。

      History Log

      配置集群的日志路径。例如tmp/hadoop-yarn/staging/history/done

      AccessKey IDAccessKey Secret

      填写访问集群OSSAccessKey IDAccessKey Secret。查看AccessKey,请参见查看AccessKey

      重要

      此处填写的配置优先级高于core-site.xml中配置的AccessKey。

      认证方式

      支持无认证Kerberos认证方式。Kerberos是一种基于对称密钥技术的身份认证协议,常用于集群各组件间的认证。开启Kerberos能够提升集群的安全性。如果您选择开启Kerberos认证,需要上传Krb5文件进行Kerberos认证。

    • Hive配置

      参数

      描述

      JDBC URL

      填写链接HiveJDBC URL。

      认证方式

      当集群认证选择无认证时,Hive的认证方式支持选择无认证LDAP

      当集群认证选择Kerberos时,Hive的认证方式支持选择无认证LDAPKerberos

      说明

      当计算引擎为E-MapReduce3.x、E-MapReduce5.x、Cloudera Data Platform 7.x、亚信DP5.3、华为 FusionInsight 8.X,支持配置认证方式。

      用户名密码

      访问Hive的用户名和密码。

      • 无认证方式:需填写用户名;

      • LDAP认证方式:需填写用户名和密码。

      • Kerberos认证方式:无需填写。

      Hive Keytab File

      开启Kerberos认证后需配置该参数。

      上传keytab文件,您可以在Hive Server上获取keytab文件。

      Hive Principal

      开启Kerberos认证后需配置该参数。

      填写Hive Keytab File文件对应的Kerberos认证Principal名。例如XXXX/hadoopclient@xxx.xxx

      执行引擎

      根据实际情况,选择合适的执行引擎。各计算引擎所支持的执行引擎不同。支持情况如下:

      • E-MapReduce 3.X:MapReduce、Spark。

      • E-MapReduce 5.X:MapReduce、Tez。

      • CDH 5.X:MapReduce。

      • CDH 6.X:MapReduce、Spark、Tez。

      • FusionInsight 8.X:MapReduce。

      • 亚信DP 5.3 Hadoop:MapReduce。

      • Cloudera Data Platform 7.x:Tez。

      说明

      设置了执行引擎后,元仓租户的计算设置、计算源、任务等都使用设置的Hive执行引擎。重新初始化后,计算设置、计算源、任务等将被初始化为新设置的执行引擎。

    • 元数据获取方式

      元数据获取方式支持元数据库HMS(Hive Metastore Service)2种方式获取元数据。不同获取方式所配置信息不同。详情如下:

      • 元数据库方式获取

        参数

        描述

        数据库类型

        仅支持MySQL作为Hive的元数据库类型。

        支持的MySQL版本包括:MySQL 5.1.43MYSQL 5.6/5.7MySQL 8

        JDBC URL

        填写目标数据库JDBC的链接地址。例如:链接地址格式为jdbc:mysql://host:port/dbname

        用户名密码

        目标数据库的用户名和密码。

      • HMS获取方式

        使用HMS方式获取元数据库,开启Kerberos后,需上传Keytab File文件和填写Principal。

        参数

        描述

        Keytab File

        Hive metastoreKerberos认证的Keytab文件。

        Principal

        Hive metastoreKerberos认证的Principal。

  5. 当必填项信息配置完成后,单击连接测试,检测与Dataphin是否连通。

  6. 连接测试通过后,单击确定并开始初始化,并对权限、元仓初始化配置进行校验。

    权限:校验本次操作人是否为元仓租户的超级管理员或系统管理员用户。

    元仓初始化配置:校验元仓初始化配置是否已经成功。

  7. 校验通过后,开始初始化流程(创建计算源、项目、数据源及初始化DDL语句),流程通过后,完成元数据中心初始化设置。

相关文档

元数据中心初始化设置完成后,您可以将数据库中的元数据采集至Dataphin,进行分析、管理。详情请参见新建及管理元数据采集任务