通过新建Paimon数据源能够实现Dataphin读取Paimon的业务数据或向Paimon写入数据。本文为您介绍如何创建Paimon数据源。
权限说明
仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。
使用限制
- Paimon数据源不支持以数据源编码和计算源物理表的形式访问。 
- 仅支持HDFS存储。 
操作步骤
- 在Dataphin首页,单击顶部菜单栏管理中心 > 数据源管理。 
- 在数据源页面,单击+新建数据源。 
- 在新建数据源页面的大数据存储区域,选择Paimon。 - 如果您最近使用过Paimon,也可以在最近使用区域选择Paimon。同时,您也可以在搜索框中,输入Paimon的关键词,快速搜索。 
- 在新建Paimon数据源页面中,配置数据源的基本信息。 - 参数 - 描述 - 数据源名称 - 命名规则如下: - 只能包含中文、英文字母大小写、数字、下划线(_)或短划线(-)。 
- 长度不能超过64字符。 
 - 数据源编码 - 配置数据源编码后,您可以在Flink_SQL任务中通过 - 数据源编码.表名称或- 数据源编码.schema.表名称的格式引用数据源中的表;如果需要根据所处环境自动访问对应环境的数据源,请通过- ${数据源编码}.table或- ${数据源编码}.schema.table的变量格式访问。更多信息,请参见Dataphin数据源表开发方式。重要- 数据源编码配置成功后不支持修改。 
- 数据源编码配置成功后,才能在资产目录和资产清单的对象详情页面进行数据预览。 
- Flink SQL中,目前仅支持MySQL、Hologres、MaxCompute、Oracle、StarRocks、Hive、SelectDB数据源。 
 - 版本 - 选择Paimon数据源的来源版本,支持Aliyun EMR3.x Hive 2.3.5、Aliyun EMR5.x Hive 3.1.x、CDH6.x Hive 2.1.1、CDP7.x Hive 3.1.3、亚信DP5.x Hive 3.1.0。 - 数据源描述 - 对数据源的简单描述。不得超过128个字符。 - 数据源配置 - 选择需要配置的数据源: - 如果数据源区分生产数据源和开发数据源,则选择生产+开发数据源。 
- 如果数据源不区分生产数据源和开发数据源,则选择生产数据源。 
 - 标签 - 您可根据标签给数据源进行分类打标,如何创建标签,请参见管理数据源标签。 
- 配置数据源与Dataphin的连接参数。 - 若您的数据源配置选择生产+开发数据源,则需配置生产+开发数据源的连接信息。如果您的数据源配置为生产数据源,仅需配置生产数据源的连接信息。 说明- 通常情况下,生产数据源和开发数据源需配置为非同一个数据源,以实现开发数据源与生产数据源的环境隔离,降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源,即相同参数值。 - 参数 - 描述 - Catalog配置 - Catalog类型 - 仅支持Hive, 不支持修改。 - Warehouse - 填写Paimon表的存储根路径。 - 建议填写 - core-site.xml中- fs.defaultFS参数值和- hive-site.xml中- hive.metastore.warehouse.dir参数值。说明- 不支持对象存储OSS。 - Hive Thrift Uri - 填写hive-site.xml中hive.metastore.uris的参数值。 - 元数据配置 - 元数据获取方式 - 支持元数据库和HMS方式。 - 元数据库方式 - 数据库类型:仅支持MySQL数据库类型,支持的版本包括MySQL5.1.43、MySQL5.6/5.7、MySQL8。 
- JDBC URL:填写元数据库的JDBC URL地址。连接格式 - jdbc:mysql://host:port/dbname。
- 用户名、密码:填写访问元数据库的用户名和密码。 
 
- HMS方式 - 认证方式:支持无认证、LDAP、Kerberos方式。 说明- 使用Kerberos方式,需在集群配置中开启Kerberos选项。 
- hive-site.xml:上传 - hive-site.xml配置文件。若开启实时,则实时研发中也将复用该配置文件。
- Keytab File:Kerberos方式需上传Keytab File文件。 
- Principal:Kerberos方式需填写Principal参数。 
 
 - 集群配置 - NameNode - 填写集群的NameNode地址。 - 若需要添加多个NameNode,单击+新增进行添加。 - 配置文件 - 上传集群的hdfs-site.xml和core-site.xml配置文件。 - Kerberos - 通过Kerberos访问集群需开启该配置项并配置以下信息。 - Kerberos配置方式:选择集群的KDC Server配置方式,支持KDC Server和krb5文件配置。 - KDC Server:KDC Server配置方式需要填写KDC Server的地址。支持配置多个配置项,各配置项之间使用英文分号(;)分隔。 
- krb5文件配置:krb5文件配置方式,需要上传krb5文件配置文件。 
 
- HDFS配置:填写集群的HDFS配置信息。 - HDFS Keytab File:上传集群的HDFS Keytab File配置文件。 
- HDFS Principal:填写集群Kerberos认证的Principal名,例如 - XXXX/hadoopclient@xxx.xxx。
 
 - Hive配置 - JDBC URL - 填写Hive的JDBC URL地址。连接格式 - jdbc:hive2://host:port/dbname。- 用户名、密码 - 非Kerberos方式访问集群,需填写Hive的鉴权用户名和密码。 说明- 为保证任务正常执行,请确保填写的用具备所需的数据权限。 - Hive Keytab File - Kerberos方式访问集群,需上传Hive的Hive Keytab File配置文件。 - Hive Principal - Kerberos方式访问集群,需填写Kerberos认证Principal名,如 - XXXX/hadoopclient@xxx.xxx。- 配置文件 - 上传Hive的hive-site.xml配置文件。 重要- Flink SQL任务将忽略集成中的认证信息,而使用Flink引擎的认证信息访问Hive数据源。 
- 选择默认资源组,该资源组用于运行与当前数据源相关任务,包括数据库SQL、离线整库迁移、数据预览等。 
- 进行测试连接或直接单击确定进行保存,完成Paimon数据源的创建。 - 单击测试连接,系统将测试数据源是否可以和Dataphin进行正常的连通。若直接单击确定,系统将自动对所有已选中的集群进行测试连接,但即使所选中的集群均连接失败,数据源依然可以正常创建。