在Dataphin中创建Paimon数据源-智能数据建设与治理 Dataphin-阿里云

通过新建Paimon数据源能够实现Dataphin读取Paimon的业务数据或向Paimon写入数据。本文为您介绍如何创建Paimon数据源。

权限说明

仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。

使用限制

Paimon数据源不支持以数据源编码和计算源物理表的形式访问。
仅支持HDFS存储。

操作步骤

在Dataphin首页，单击顶部菜单栏管理中心 > 数据源管理。
在数据源页面，单击+新建数据源。
在新建数据源页面的大数据存储区域，选择Paimon。
如果您最近使用过Paimon，也可以在最近使用区域选择Paimon。同时，您也可以在搜索框中，输入Paimon的关键词，快速搜索。

在新建Paimon数据源页面中，配置数据源的基本信息。

参数	描述
数据源名称	命名规则如下：只能包含中文、英文字母大小写、数字、下划线（_）或短划线（-）。长度不能超过64字符。
数据源编码	配置数据源编码后，您可以在Flink_SQL任务中通过`数据源编码.表名称`或`数据源编码.schema.表名称`的格式引用数据源中的表；如果需要根据所处环境自动访问对应环境的数据源，请通过`${数据源编码}.table`或`${数据源编码}.schema.table`的变量格式访问。更多信息，请参见Flink_SQL任务开发方式。重要数据源编码配置成功后不支持修改。数据源编码配置成功后，才能在资产目录和资产清单的对象详情页面进行数据预览。 Flink SQL中，目前仅支持MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB数据源。
版本	选择Paimon数据源的来源版本，支持EMR3.x Hive 2.3.5、EMR5.x Hive 3.1.x、CDH6.x Hive 2.1.1、CDP7.x Hive 3.1.3、亚信DP5.x Hive 3.1.0。
数据源描述	对数据源的简单描述。不得超过128个字符。
数据源配置	选择需要配置的数据源：如果数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果数据源不区分生产数据源和开发数据源，则选择生产数据源。
标签	您可根据标签给数据源进行分类打标，如何创建标签，请参见管理数据源标签。

配置数据源与Dataphin的连接参数。

若您的数据源配置选择生产+开发数据源，则需配置生产+开发数据源的连接信息。如果您的数据源配置为生产数据源，仅需配置生产数据源的连接信息。

说明

通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。

参数	描述
Catalog配置
Catalog类型	仅支持Hive，不支持修改。
Warehouse	填写Paimon表的存储根路径。建议填写`core-site.xml`中`fs.defaultFS`参数值和`hive-site.xml`中`hive.metastore.warehouse.dir`参数值。说明不支持对象存储OSS。
Hive Thrift Uri	填写hive-site.xml中hive.metastore.uris的参数值。
元数据配置
元数据获取方式	支持元数据库和HMS方式。元数据库方式数据库类型：仅支持MySQL数据库类型，支持的版本包括MySQL5.1.43、MySQL5.6/5.7、MySQL8。 JDBC URL：填写元数据库的JDBC URL地址。连接格式`jdbc:mysql://host:port/dbname`。用户名、密码：填写访问元数据库的用户名和密码。 HMS方式认证方式：支持无认证、LDAP、Kerberos方式。说明使用Kerberos方式，需在集群配置中开启Kerberos选项。 hive-site.xml：上传`hive-site.xml`配置文件。若开启实时，则实时研发中也将复用该配置文件。 Keytab File：Kerberos方式需上传Keytab File文件。 Principal：Kerberos方式需填写Principal参数。
集群配置
NameNode	填写集群的NameNode地址。若需要添加多个NameNode，单击+新增进行添加。
配置文件	上传集群的hdfs-site.xml和core-site.xml配置文件。
Kerberos	通过Kerberos访问集群需开启该配置项并配置以下信息。 Kerberos配置方式：选择集群的KDC Server配置方式，支持KDC Server和krb5文件配置。 KDC Server：KDC Server配置方式需要填写KDC Server的地址。支持配置多个配置项，各配置项之间使用英文分号（;）分隔。 krb5文件配置：krb5文件配置方式，需要上传krb5文件配置文件。 HDFS配置：填写集群的HDFS配置信息。 HDFS Keytab File：上传集群的HDFS Keytab File配置文件。 HDFS Principal：填写集群Kerberos认证的Principal名，例如`XXXX/hadoopclient@xxx.xxx`。
Hive配置
JDBC URL	填写Hive的JDBC URL地址。连接格式`jdbc:hive2://host:port/dbname`。
用户名、密码	非Kerberos方式访问集群，需填写Hive的鉴权用户名和密码。说明为保证任务正常执行，请确保填写的用具备所需的数据权限。
Hive Keytab File	Kerberos方式访问集群，需上传Hive的Hive Keytab File配置文件。
Hive Principal	Kerberos方式访问集群，需填写Kerberos认证Principal名，如`XXXX/hadoopclient@xxx.xxx`。
配置文件	上传Hive的hive-site.xml配置文件。重要 Flink SQL任务将忽略集成中的认证信息，而使用Flink引擎的认证信息访问Hive数据源。

选择默认资源组，该资源组用于运行与当前数据源相关任务，包括数据库SQL、离线整库迁移、数据预览等。
进行测试连接或直接单击确定进行保存，完成Paimon数据源的创建。
单击测试连接，系统将测试数据源是否可以和Dataphin进行正常的连通。若直接单击确定，系统将自动对所有已选中的集群进行测试连接，但即使所选中的集群均连接失败，数据源依然可以正常创建。
重要
如果连接测试失败，您可以根据网络连通常见问题进行排查。详细内容，请参见网络连通解决方案。