Paimon Catalog数据源

更新时间:
复制 MD 格式

DataWorks 支持配置 Paimon Catalog 数据源,专门用于对非 DLF 来源的 Paimon 表进行元数据采集与纳管。作为一类特殊的元数据类数据源,它能帮助您在数据地图中实现 Paimon 数据湖资产的统一治理。本文将为您介绍该数据源的具体配置步骤。

功能介绍

随着湖仓一体架构在企业中的深度普及,Paimon、Iceberg、Delta Lake 等开放表格式已成为构建实时数仓流批一体场景的核心基石。特别是在 Flink 流处理生态中,Paimon Catalog 因其天然的适配性被广泛应用。

目前,DataWorks 已实现与 Data Lake Formation的深度对接,支持通过 DLF 数据源实现对数据湖表的统一管理与调用。然而,在实际业务中,存在大量自主声明的 Catalog 场景:例如,用户通过 Flink 引擎声明定义、实际元数据及数据均存储于阿里云OSS 中的 Paimon Catalog。

针对此类非 DLF 托管的、原生的湖格式元数据,原有数据源体系难以进行有效感知与深度管理。为此,DataWorks 推出 Paimon Catalog 数据源,旨在支持原生数据湖格式的元数据采集与治理,填补自主声明式 Catalog 的管理空白,实现湖仓全路径数据的可见、可管、可用。

使用限制

  • 网络连通:仅支持使用Serverless资源组

  • 适用场景:当前 Paimon Catalog 仅适用于元数据采集与治理, 不支持用于数据集成同步任务 。若需执行数据同步读写Paimon表,请使用其他数据源(如 DLF、OSS)。

操作步骤

1. 进入数据源页面

  1. 登录DataWorks控制台 ,切换至目标地域后,单击左侧导航栏的工作空间 ,单击目标工作空间右侧的操作栏中的管理 按钮进入管理界面。

  2. 进入工作空间管理中心页面后,单击左侧导航栏的数据源,进入数据源页面。

2. 新建 Paimon Catalog 数据源

  1. 数据源 页面,单击新增数据源

  2. 在弹出的对话框中,搜索并选择Paimon Catalog

3. 配置参数

根据界面提示配置以下核心字段:

字段

说明

数据源名称

自定义数据源名称,如paimon_finance

Catalog

用于连接的Catalog的名称,如paimon-catalog建议将 Catalog 名称设置为与计算引擎侧一致,以确保元数据能够实现精准映射。

MetaStore

Catalog存储的类型,目前仅支持 Filesystem

Filesystem

文件存储的类型,目前仅支持OSS。

访问身份

  • RAM角色授权模式 :支持通过RAM角色授权的方式访问Catalog所在的OSS路径,授权配置方式可参考:通过RAM角色授权模式配置数据源

  • 阿里云RAM子账号:支持将当前登录账号,作为访问身份访问OSS。

地域

尽量选择与当前空间同地域Bucket。如需跨地域创建数据源时,建议建立VPC对等链接,详情参考:连接同主账号不同地域数据源;或使用外网Endpoint连接。

Endpoint

域名配置可参考:访问域名与网络连接概述

Warehouse

Warehouse 路径:Paimon Catalog 在 OSS 中的存储地址。

  • 格式要求:必填,需填写完整路径。示例:oss://bucket/path/warehouse

  • 采集说明:请务必保证路径准确,否则将导致元数据采集失败。

  • 快捷选择:支持点击输入框右侧的文件夹图标PixPin_2025-12-29_11-41-27进行可视化路径选择。

4. 连通性测试

数据源信息配置完成后,需要经过连通性测试,以 保证数据源和资源组网络连通正常。

  • 如果显示可连通,则表示配置无误。

  • 如果显示无法连通,系统会弹出诊断工具辅助排查。常见原因包括凭证错误、网络不通(IP白名单未配置)或NAT网关缺失等。

  • 标准模式下,请务必保证开发环境和生产环境均为可连通,否则在后续元数据采集等使用中将出错。

后续步骤

数据源配置完成后,可以在数据地图模块中进行元数据采集,并对元数据进行查看和治理。