Paimon Catalog数据源

更新时间:
复制为 MD 格式

DataWorks 支持配置 Paimon Catalog 数据源,专门用于对非 DLF 来源的 Paimon 表进行元数据采集与纳管。作为一类特殊的元数据类数据源,它能帮助您在数据地图中实现 Paimon 数据湖资产的统一治理。本文将为您介绍该数据源的具体配置步骤。

功能介绍

随着湖仓一体架构在企业中的深度普及,Paimon、Iceberg、Delta Lake 等开放表格式已成为构建实时数仓流批一体场景的核心基石。特别是在 Flink 流处理生态中,Paimon Catalog 因其天然的适配性被广泛应用。

目前,DataWorks 已实现与 Data Lake Formation的深度对接,支持通过 DLF 数据源实现对数据湖表的统一管理与调用。然而,在实际业务中,存在大量自主声明的 Catalog 场景:例如,用户通过 Flink 引擎声明定义、实际元数据及数据均存储于阿里云OSS 中的 Paimon Catalog。

针对此类非 DLF 托管的、原生的湖格式元数据,原有数据源体系难以进行有效感知与深度管理。为此,DataWorks 推出 Paimon Catalog 数据源,旨在支持原生数据湖格式的元数据采集与治理,填补自主声明式 Catalog 的管理空白,实现湖仓全路径数据的可见、可管、可用。

使用限制

  • 网络连通:仅支持使用Serverless资源组

  • 适用场景:当前 Paimon Catalog 仅适用于元数据采集与治理,不支持用于数据集成同步任务。若需执行数据同步读写Paimon表,请使用其他数据源(如 DLF、OSS)。

操作步骤

1. 进入数据源页面

  1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的工作空间,单击目标工作空间右侧的操作栏中的管理按钮进入管理界面。

  2. 进入工作空间管理中心页面后,单击左侧导航栏的数据源,进入数据源页面。

2. 新建 Paimon Catalog 数据源

  1. 数据源页面,单击新增数据源

  2. 在弹出的对话框中,搜索并选择Paimon Catalog

3. 配置参数

根据界面提示配置以下核心字段:

字段

说明

数据源名称

自定义数据源名称,如paimon_finance

Catalog

用于连接的Catalog的名称,如paimon-catalog建议将 Catalog 名称设置为与计算引擎侧一致,以确保元数据能够实现精准映射。

MetaStore

Catalog存储的类型,目前仅支持 Filesystem

Filesystem

文件存储的类型,目前仅支持OSS。

访问身份

  • RAM角色授权模式:支持通过RAM角色授权的方式访问Catalog所在的OSS路径,授权配置方式可参考:通过RAM角色授权模式配置数据源

  • 阿里云RAM子账号:支持将当前登录账号,作为访问身份访问OSS。

地域

尽量选择与当前空间同地域Bucket。如需跨地域创建数据源时,建议建立VPC对等链接,详情参考:连接同主账号不同地域数据源;或使用外网Endpoint连接。

Endpoint

域名配置可参考:访问域名与网络连接概述

Warehouse

Warehouse 路径:Paimon Catalog 在 OSS 中的存储地址。

  • 格式要求:必填,需填写完整路径。示例:oss://bucket/path/warehouse

  • 采集说明:请务必保证路径准确,否则将导致元数据采集失败。

  • 快捷选择:支持点击输入框右侧的文件夹图标PixPin_2025-12-29_11-41-27进行可视化路径选择。

4. 连通性测试

数据源信息配置完成后,需要经过连通性测试,以保证数据源和资源组网络连通正常。

  • 如果显示可连通,则表示配置无误。

  • 如果显示无法连通,系统会弹出诊断工具辅助排查。常见原因包括凭证错误、网络不通(IP白名单未配置)或NAT网关缺失等。

  • 标准模式下,请务必保证开发环境和生产环境均为可连通,否则在后续元数据采集等使用中将出错。

后续步骤

数据源配置完成后,可以在数据地图模块中进行元数据采集,并对元数据进行查看和治理。