通过新建Paimon数据源能够实现Dataphin读取Paimon的业务数据或向Paimon写入数据。本文为您介绍如何新建Paimon数据源。
权限说明
仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。
使用限制
Paimon数据源不支持以数据源编码和计算源物理表的形式访问。
仅支持HDFS存储。
操作步骤
在Dataphin首页,单击顶部菜单栏管理中心 > 数据源管理。
在数据源页面,单击+新建数据源。
在新建数据源对话框的大数据存储区域,选择Paimon。
如果您最近使用过Paimon,也可以在最近使用区域选择Paimon。同时,您也可以在搜索框中,输入Paimon的关键词,快速筛选。
在新建Paimon数据源对话框中,配置数据源的基本信息。
参数
描述
数据源名称
命名规则如下:
只能包含中文、英文字母大小写、数字、下划线(_)或短划线(-)。
长度不能超过64字符。
数据源编码
配置数据源编码后,您可以在Flink_SQL任务中通过
数据源编码.表名称
或数据源编码.schema.表名称
的格式引用数据源中的表;如果需要根据所处环境自动访问对应环境的数据源,请通过${数据源编码}.table
或${数据源编码}.schema.table
的变量格式访问。更多信息,请参见Flink_SQL任务开发方式。重要目前仅支持MySQL、Hologres、MaxCompute、StarRocks数据源。
数据源编码配置成功后不支持修改。
版本
选择Paimon数据源的来源版本,支持EMR3.x Hive 2.3.5、EMR5.x Hive 3.1.x、CDH6.x Hive 2.1.1、CDP7.x Hive 3.1.3、亚信DP5.x Hive 3.1.0。
数据源描述
对数据源的简单描述。不得超过128个字符。
数据源配置
选择需要配置的数据源:
如果数据源区分生产数据源和开发数据源,则选择生产+开发数据源。
如果数据源不区分生产数据源和开发数据源,则选择生产数据源。
标签
您可根据标签给数据源进行分类打标,如何创建标签,请参见管理数据源标签。
配置数据源与Dataphin的连接参数。
若您的数据源配置选择生产+开发数据源,则需配置生产+开发数据源的连接信息。如果您的数据源配置为生产数据源,仅需配置生产数据源的连接信息。
说明通常情况下,生产数据源和开发数据源需配置为非同一个数据源,以实现开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。
参数
描述
Catalog配置
Catalog类型
仅支持Hive, 不支持修改。
Warehouse
填写Paimon表的存储根路径。
建议填写
core-site.xml
中fs.defaultFS
参数值和hive-site.xml
中hive.metastore.warehouse.dir
参数值。说明不支持对象存储OSS。
Hive Thrift Uri
填写hive-site.xml中hive.metastore.uris的参数值。
元数据配置
元数据获取方式
支持元数据库和HMS方式。
元数据库方式
数据库类型:仅支持MySQL数据库类型,支持的版本包括MySQL5.1.43、MySQL5.6/5.7、MySQL8。
JDBC URL:填写元数据库的JDBC URL地址。连接格式
jdbc:mysql://host:port/dbname
。用户名、密码:填写访问元数据库的用户名和密码。
HMS方式
认证方式:支持无认证、LDAP、Kerberos方式。
说明使用Kerberos方式,需在集群配置中开启Kerberos选项。
hive-site.xml:上传
hive-site.xml
配置文件。若开启实时,则实时研发中也将复用该配置文件。Keytab File:Kerberos方式需上传Keytab File文件。
Principal:Kerberos方式需填写Principal参数。
集群配置
NameNode
填写集群的NameNode地址。
若需要添加多个NameNode,单击+新增进行添加。
配置文件
上传集群的hdfs-site.xml和core-site.xml配置文件。
Kerberos
通过Kerberos访问集群需开启该配置项并配置以下信息。
Kerberos配置方式:选择集群的KDC Server配置方式,支持KDC Server和krb5文件配置。
KDC Server:KDC Server配置方式需要填写KDC Server的地址。支持配置多个配置项,各配置项之间使用英文分号(;)分隔。
krb5文件配置:krb5文件配置方式,需要上传krb5文件配置文件。
HDFS配置:填写集群的HDFS配置信息。
HDFS Keytab File:上传集群的HDFS Keytab File配置文件。
HDFS Principal:填写集群Kerberos认证的Principal名,例如
XXXX/hadoopclient@xxx.xxx
。
Hive配置
JDBC URL
填写Hive的JDBC URL地址。连接格式
jdbc:hive2://host:port/dbname
。用户名、密码
非Kerberos方式访问集群,需填写Hive的鉴权用户名和密码。
说明为保证任务正常执行,请确保填写的用具备所需的数据权限。
Hive Keytab File
Kerberos方式访问集群,需上传Hive的Hive Keytab File配置文件。
Hive Principal
Kerberos方式访问集群,需填写Kerberos认证Principal名,如
XXXX/hadoopclient@xxx.xxx
。配置文件
上传Hive的hive-site.xml配置文件。
重要Flink SQL任务将忽略集成中的认证信息,而使用Flink引擎的认证信息访问Hive数据源。
单击测试连接,测试数据源是否可以和Dataphin进行正常的连通。
重要如果连接测试失败,您可以根据网络连通常见问题进行排查。详细内容,请参见网络连通解决方案。
测试成功后,单击确定,完成Paimon数据源的创建。