新建Paimon数据源

通过新建Paimon数据源能够实现Dataphin读取Paimon的业务数据或向Paimon写入数据。本文为您介绍如何新建Paimon数据源。

权限说明

仅支持具备新建数据源权限点的自定义全局角色和超级管理员数据源管理员板块架构师项目管理员角色创建数据源。

使用限制

  • Paimon数据源不支持以数据源编码和计算源物理表的形式访问。

  • 仅支持HDFS存储。

操作步骤

  1. 在Dataphin首页,单击顶部菜单栏管理中心 > 数据源管理

  2. 数据源页面,单击+新建数据源image

  3. 新建数据源对话框的大数据存储区域,选择Paimon

    如果您最近使用过Paimon,也可以在最近使用区域选择Paimon。同时,您也可以在搜索框中,输入Paimon的关键词,快速筛选。

    image.png

  4. 新建Paimon数据源对话框中,配置数据源的基本信息。

    参数

    描述

    数据源名称

    命名规则如下:

    • 只能包含中文、英文字母大小写、数字、下划线(_)或短划线(-)。

    • 长度不能超过64字符。

    数据源编码

    配置数据源编码后,您可以在Flink_SQL任务中通过数据源编码.表名称数据源编码.schema.表名称的格式引用数据源中的表;如果需要根据所处环境自动访问对应环境的数据源,请通过${数据源编码}.table${数据源编码}.schema.table的变量格式访问。更多信息,请参见Flink_SQL任务开发方式

    重要
    • 目前仅支持MySQLHologresMaxCompute、StarRocks数据源。

    • 数据源编码配置成功后不支持修改。

    版本

    选择Paimon数据源的来源版本,支持EMR3.x Hive 2.3.5EMR5.x Hive 3.1.xCDH6.x Hive 2.1.1CDP7.x Hive 3.1.3亚信DP5.x Hive 3.1.0

    数据源描述

    对数据源的简单描述。不得超过128个字符。

    数据源配置

    选择需要配置的数据源:

    • 如果数据源区分生产数据源和开发数据源,则选择生产+开发数据源

    • 如果数据源不区分生产数据源和开发数据源,则选择生产数据源

    标签

    您可根据标签给数据源进行分类打标,如何创建标签,请参见管理数据源标签

  5. 配置数据源与Dataphin的连接参数。

    若您的数据源配置选择生产+开发数据源,则需配置生产+开发数据源的连接信息。如果您的数据源配置为生产数据源,仅需配置生产数据源的连接信息。

    说明

    通常情况下,生产数据源和开发数据源需配置为非同一个数据源,以实现开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。

    参数

    描述

    Catalog配置

    Catalog类型

    仅支持Hive, 不支持修改。

    Warehouse

    填写Paimon表的存储根路径。

    建议填写core-site.xmlfs.defaultFS参数值和hive-site.xmlhive.metastore.warehouse.dir参数值。

    说明

    不支持对象存储OSS。

    Hive Thrift Uri

    填写hive-site.xmlhive.metastore.uris的参数值。

    元数据配置

    元数据获取方式

    支持元数据库HMS方式。

    • 元数据库方式

      • 数据库类型:仅支持MySQL数据库类型,支持的版本包括MySQL5.1.43MySQL5.6/5.7、MySQL8。

      • JDBC URL:填写元数据库的JDBC URL地址。连接格式jdbc:mysql://host:port/dbname

      • 用户名密码:填写访问元数据库的用户名和密码。

    • HMS方式

      • 认证方式:支持无认证LDAPKerberos方式。

        说明

        使用Kerberos方式,需在集群配置中开启Kerberos选项。

      • hive-site.xml:上传hive-site.xml配置文件。若开启实时,则实时研发中也将复用该配置文件。

      • Keytab File:Kerberos方式需上传Keytab File文件。

      • Principal:Kerberos方式需填写Principal参数。

    集群配置

    NameNode

    填写集群的NameNode地址。

    若需要添加多个NameNode,单击+新增进行添加。

    配置文件

    上传集群的hdfs-site.xmlcore-site.xml配置文件。

    Kerberos

    通过Kerberos访问集群需开启该配置项并配置以下信息。

    • Kerberos配置方式:选择集群的KDC Server配置方式,支持KDC Server和krb5文件配置。

      • KDC Server:KDC Server配置方式需要填写KDC Server的地址。支持配置多个配置项,各配置项之间使用英文分号(;)分隔。

      • krb5文件配置:krb5文件配置方式,需要上传krb5文件配置文件。

    • HDFS配置:填写集群的HDFS配置信息。

      • HDFS Keytab File:上传集群的HDFS Keytab File配置文件。

      • HDFS Principal:填写集群Kerberos认证的Principal名,例如XXXX/hadoopclient@xxx.xxx

    Hive配置

    JDBC URL

    填写Hive的JDBC URL地址。连接格式jdbc:hive2://host:port/dbname

    用户名密码

    非Kerberos方式访问集群,需填写Hive的鉴权用户名和密码。

    说明

    为保证任务正常执行,请确保填写的用具备所需的数据权限。

    Hive Keytab File

    Kerberos方式访问集群,需上传Hive的Hive Keytab File配置文件。

    Hive Principal

    Kerberos方式访问集群,需填写Kerberos认证Principal名,如XXXX/hadoopclient@xxx.xxx

    配置文件

    上传Hive的hive-site.xml配置文件。

    重要

    Flink SQL任务将忽略集成中的认证信息,而使用Flink引擎的认证信息访问Hive数据源。

  6. 单击测试连接,测试数据源是否可以和Dataphin进行正常的连通。

    重要

    如果连接测试失败,您可以根据网络连通常见问题进行排查。详细内容,请参见网络连通解决方案

  7. 测试成功后,单击确定,完成Paimon数据源的创建。