DataWorks 支持配置 Paimon Catalog 数据源,专门用于对非 DLF 来源的 Paimon 表进行元数据采集与纳管。作为一类特殊的元数据类数据源,它能帮助您在数据地图中实现 Paimon 数据湖资产的统一治理。本文将为您介绍该数据源的具体配置步骤。
功能介绍
随着湖仓一体架构在企业中的深度普及,Paimon、Iceberg、Delta Lake 等开放表格式已成为构建实时数仓与流批一体场景的核心基石。特别是在 Flink 流处理生态中,Paimon Catalog 因其天然的适配性被广泛应用。
目前,DataWorks 已实现与 Data Lake Formation的深度对接,支持通过 DLF 数据源实现对数据湖表的统一管理与调用。然而,在实际业务中,存在大量自主声明的 Catalog 场景:例如,用户通过 Flink 引擎声明定义、实际元数据及数据均存储于阿里云OSS 中的 Paimon Catalog。
针对此类非 DLF 托管的、原生的湖格式元数据,原有数据源体系难以进行有效感知与深度管理。为此,DataWorks 推出 Paimon Catalog 数据源,旨在支持原生数据湖格式的元数据采集与治理,填补自主声明式 Catalog 的管理空白,实现湖仓全路径数据的可见、可管、可用。
使用限制
网络连通:仅支持使用Serverless资源组。
适用场景:当前 Paimon Catalog 仅适用于元数据采集与治理,不支持用于数据集成同步任务。若需执行数据同步读写Paimon表,请使用其他数据源(如 DLF、OSS)。
操作步骤
1. 进入数据源页面
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的工作空间,单击目标工作空间右侧的操作栏中的管理按钮进入管理界面。
进入工作空间管理中心页面后,单击左侧导航栏的数据源,进入数据源页面。
2. 新建 Paimon Catalog 数据源
在数据源页面,单击新增数据源。
在弹出的对话框中,搜索并选择Paimon Catalog。
3. 配置参数
根据界面提示配置以下核心字段:
字段 | 说明 |
数据源名称 | 自定义数据源名称,如 |
Catalog | 用于连接的Catalog的名称,如 |
MetaStore | Catalog存储的类型,目前仅支持 Filesystem。 |
Filesystem | 文件存储的类型,目前仅支持OSS。 |
访问身份 |
|
地域 | 尽量选择与当前空间同地域Bucket。如需跨地域创建数据源时,建议建立VPC对等链接,详情参考:连接同主账号不同地域数据源;或使用外网Endpoint连接。 |
Endpoint | 域名配置可参考:访问域名与网络连接概述。 |
Warehouse | Warehouse 路径:Paimon Catalog 在 OSS 中的存储地址。
|
4. 连通性测试
数据源信息配置完成后,需要经过连通性测试,以保证数据源和资源组网络连通正常。
如果显示可连通,则表示配置无误。
如果显示无法连通,系统会弹出诊断工具辅助排查。常见原因包括凭证错误、网络不通(IP白名单未配置)或NAT网关缺失等。
标准模式下,请务必保证开发环境和生产环境均为可连通,否则在后续元数据采集等使用中将出错。
后续步骤
数据源配置完成后,可以在数据地图模块中进行元数据采集,并对元数据进行查看和治理。
进行可视化路径选择。