文档

新建Paimon数据源

更新时间:

通过新建Paimon数据源能够实现Dataphin读取Paimon的业务数据或向Paimon写入数据。本文为您介绍如何新建Paimon数据源。

权限说明

仅支持具备新建数据源权限的账号进行新建。更多信息,请参见数据源权限说明

使用限制

  • Paimon数据源不支持以数据源编码和计算源物理表的形式访问。

  • 仅支持HDFS存储。

操作步骤

  1. 在Dataphin首页,单击顶部菜单栏管理中心

  2. 按照下图操作指引,进入新建数据源对话框。

    image.png

  3. 新建数据源对话框的大数据存储区域,选择Paimon

    如果您最近使用过Paimon,也可以在最近使用区域选择Paimon。同时,您也可以在搜索框中,输入Paimon的关键词,快速筛选。

    image.png

  4. 新建Paimon数据源对话框中,配置数据源的基本信息。

    参数

    描述

    数据源名称

    命名规则如下:

    • 只能包含中文、字母、数字、下划线(_)或中划线(-)。

    • 长度不能超过64字符。

    数据源编码

    配置数据源编码后,您可以在Flink_SQL任务中通过数据源编码.表名称数据源编码.schema.表名称的格式引用数据源中的表;如果需要根据所处环境自动访问对应环境的数据源,请通过${数据源编码}.table${数据源编码}.schema.table的变量格式访问。更多信息,请参见Dataphin数据源表开发方式

    重要
    • 目前仅支持MySQLHologresMaxCompute、HiveOracleStarRocks数据源。

    • 数据源编码配置成功后不支持修改。

    版本

    选择Paimon数据源的来源版本,支持EMR3.x Hive 2.3.5EMR5.x Hive 3.1.xCDH6.x Hive 2.1.1CDP7.x Hive 3.1.3亚信DP5.x Hive 3.1.0

    数据源描述

    对数据源的简单描述。不得超过128个字符。

    数据源配置

    选择需要配置的数据源:

    • 如果数据源区分生产数据源和开发数据源,则选择生产+开发数据源

    • 如果数据源不区分生产数据源和开发数据源,则选择生产数据源

    标签

    您可根据标签给数据源进行分类打标,如何创建标签,请参见数据源管理标签

  5. 配置数据源与Dataphin的连接参数。

    若您的数据源配置选择生产+开发数据源,则需配置生产+开发数据源的连接信息。如果您的数据源配置为生产数据源,仅需配置生产数据源的连接信息。

    说明

    通常情况下,生产数据源和开发数据源需配置非同一个数据源,以使开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。

    参数

    描述

    Catalog配置

    Catalog类型

    仅支持Hive, 不支持修改。

    Warehouse

    填写Paimon表的存储根路径。

    建议填写core-site.xmlfs.defaultFS参数值和hive-site.xmlhive.metastore.warehouse.dir参数值。

    说明

    不支持对象存储OSS。

    Hive Thrift Uri

    填写hive-site.xmlhive.metastore.uris的参数值。

    元数据配置

    元数据获取方式

    支持元数据库HMS方式。

    • 元数据库方式

      • 数据库类型:仅支持MySQL数据库类型,支持的版本包括MySQL5.1.43MySQL5.6/5.7、MySQL8。

      • JDBC URL:填写元数据库的JDBC URL地址。连接格式jdbc:mysql://host:port/dbname

      • 用户名密码:填写访问元数据库的用户名和密码。

    • HMS方式

      • 认证方式:支持无认证LDAPKerberos方式。

        说明

        使用Kerberos方式,需在集群配置中开启Kerberos选项。

      • hive-site.xml:上传hive-site.xml配置文件。若开启实时,则实时研发中也将复用该配置文件。

      • Keytab File:Kerberos方式需上传Keytab File文件。

      • Principal:Kerberos方式需填写Principal参数。

    集群配置

    NameNode

    填写集群的NameNode地址。

    若需要添加多个NameNode,单击+新增进行添加。

    配置文件

    上传集群的hdfs-site.xmlcore-site.xml配置文件。

    Kerberos

    通过Kerberos访问集群需开启该配置项并配置以下信息。

    • Kerberos配置方式:选择集群的KDC Server配置方式,支持KDC Server和krb5文件配置。

      • KDC Server:KDC Server配置方式需要填写KDC Server的地址。支持配置多个配置项,各配置项之间使用英文分号(;)分隔。

      • krb5文件配置:krb5文件配置方式,需要上传krb5文件配置文件。

    • HDFS配置:填写集群的HDFS配置信息。

      • HDFS Keytab File:上传集群的HDFS Keytab File配置文件。

      • HDFS Principal:填写集群Kerberos认证的Principal名,例如XXXX/hadoopclient@xxx.xxx

    Hive配置

    JDBC URL

    填写Hive的JDBC URL地址。连接格式jdbc:hive2://host:port/dbname

    用户名密码

    非Kerberos方式访问集群,需填写Hive的鉴权用户名和密码。

    说明

    为保证任务正常执行,请确保填写的用具备所需的数据权限。

    Hive Keytab File

    Kerberos方式访问集群,需上传Hive的Hive Keytab File配置文件。

    Hive Principal

    Kerberos方式访问集群,需填写Kerberos认证Principal名,如XXXX/hadoopclient@xxx.xxx

    配置文件

    上传hive的hive-site.xml配置文件。

    重要

    Flink SQL任务将忽略集成中的认证信息,而使用Flink引擎的认证信息访问Hive数据源。

  6. 单击测试连接,测试数据源是否可以和Dataphin进行正常的连通。

  7. 测试成功后,单击确定,完成Paimon数据源的创建。