配置Paimon Catalog后,您可以通过实时计算Flink版直接访问阿里云数据湖构建(Data Lake Formation)中的Paimon表。本文为您介绍如何在实时计算开发控制台创建、查看与删除Paimon Catalog,以及管理Paimon数据库和Paimon表。
注意事项
仅实时计算引擎VVR 8.0.5及以上版本支持创建和配置Paimon Catalog和Paimon表。其中,仅VVR 11.1.0及以上版本支持元数据存储类型设置为DLF。
OSS用于存储Paimon表的相关文件,包括数据文件与元数据文件等。请确保已开通阿里云对象存储OSS服务,且OSS Bucket的存储类型需要为标准存储,详情请参见控制台快速入门和存储类型。
重要您也可以使用开通实时计算Flink版服务时指定的OSS Bucket,但为了更好地区分数据并防止误操作,建议您额外创建并使用位于同一地域的OSS Bucket。
创建Paimon Catalog填写的AccessKey必须对OSS Bucket和DLF目录有读写权限。
通过SQL方式创建或删除Catalog、Database和table后,您可以单击刷新
按钮以更新元数据页面显示。
Paimon与VVR版本对应关系详情如下表所示。
Paimon社区版本
实时计算Flink版引擎版本(VVR )
1.1
11.1
1.0
8.0.11
0.9
8.0.7、8.0.8、8.0.9、8.0.10
0.8
8.0.6
0.7
8.0.5
0.6
8.0.4
0.6
8.0.3
创建Paimon Catalog
创建Paimon Filesystem Catalog
UI方式
进入数据管理页面。
登录实时计算控制台,单击目标工作空间操作列下的控制台。
单击数据管理。
单击创建Catalog,选择Apache Paimon,单击下一步。
填写参数配置信息。
SQL方式
在数据查询文本编辑区域,输入以下命令。
CREATE CATALOG `my-catalog` WITH (
'type' = 'paimon',
'metastore' = 'filesystem',
'warehouse' = '<warehouse>',
'fs.oss.endpoint' = '<fs.oss.endpoint>',
'fs.oss.accessKeyId' = '<fs.oss.accessKeyId>',
'fs.oss.accessKeySecret' = '<fs.oss.accessKeySecret>'
);
配置项参数说明如下。
通用
配置项
说明
是否必填
备注
my-catalog
Paimon Catalog名称。
是
请填写为自定义的英文名。
type
Catalog类型。
是
固定值为paimon。
metastore
元数据存储类型。
是
参数取值如下:
filesystem:配置为Paimon Filesystem Catalog类型时填写。
dlf:配置为Paimon DLF Catalog类型时填写。
OSS
配置项
说明
是否必填
备注
warehouse
OSS服务中所指定的数仓目录。
是
格式为oss://<bucket>/<object>。其中:
bucket:表示您创建的OSS Bucket名称。
object:表示您存放数据的路径。
请在OSS管理控制台上查看您的bucket和object名称。
fs.oss.endpoint
OSS服务的连接地址。
是
如果Flink与DLF位于同一地域,则使用VPC网络Endpoint,否则使用公网Endpoint。
当warehouse指定的OSS Bucket与Flink工作空间不在同一地域,或使用其它账号下的OSS Bucket时需要填写。
获取方法请参见OSS地域和访问域名和创建AccessKey。
fs.oss.accessKeyId
拥有读写OSS权限的阿里云账号或RAM账号的Accesskey ID。
是
fs.oss.accessKeySecret
拥有读写OSS权限的阿里云账号或RAM账号的Accesskey secret。
是
创建Paimon DLF Catalog
DLF
在DLF上创建Paimon Catalog,详情请参见快速使用DLF。
DLF Catalog需要和Flink工作空间位于同一地域,否则无法在后续流程中完成关联。
在实时计算开发控制台上,创建Paimon Catalog。
说明这里仅用于建立与DLF Catalog的映射连接,创建或删除Catalog仅影响映射关系,不会对DLF中的实际数据产生影响。
登录实时计算控制台。
单击Flink全托管工作空间列表中的工作空间名称,进入对应的工作空间。
可以通过UI或者SQL方式来添加Catalog。
UI方式
在左侧导航栏,单击数据管理。
在Catalog列表页,单击创建Catalog。
选择Apache Paimon,单击下一步。
metastore 选择 dlf,catalog name 选择需要关联版本的DLF Catalog,单击确定,即可创建Catalog。
SQL命令
在数据查询文本编辑区域,输入以下SQL并执行,即可创建Catalog。
CREATE CATALOG `flink_catalog_name` WITH ( 'type' = 'paimon', 'metastore' = 'rest', 'token.provider' = 'dlf', 'uri' = 'http://cn-hangzhou-vpc.dlf.aliyuncs.com', 'warehouse' = 'dlf_test' );
参数说明如下:
参数
描述
是否必填
示例
type
Catalog类型,固定为paimon。
是
paimon
metastore
metastore类型,固定为rest。
是
rest
token.provider
Token提供方,固定为dlf。
是
dlf
uri
访问DLF Rest Catalog Server的URI,格式为
http://[region-id]-vpc.dlf.aliyuncs.com
。详见服务接入点中的Region ID。是
http://cn-hangzhou-vpc.dlf.aliyuncs.com
warehouse
DLF Catalog名称。
是
dlf_test
DLF-Legacy
在DLF上创建Paimon Catalog,详情请参见快速入门。
DLF Catalog需要和Flink工作空间位于同一地域,否则无法在后续流程中完成关联。
在实时计算开发控制台上,创建Paimon Catalog。
UI方式
进入数据管理页面。
登录实时计算控制台,单击目标工作空间操作列下的控制台。
单击数据管理。
单击创建Catalog,选择Apache Paimon,单击下一步。
metastore 选择 dlf,catalog name 选择需要关联的V1.0版本的DLF Catalog,然后填写参数配置(所需参数与SQL方式一致)。
SQL命令
在数据查询文本编辑区域,输入以下命令。
CREATE CATALOG `my-catalog` WITH ( 'type' = 'paimon', 'metastore' = 'dlf', 'warehouse' = '<warehouse>', 'dlf.catalog.id' = '<dlf.catalog.id>', 'dlf.catalog.accessKeyId' = '<dlf.catalog.accessKeyId>', 'dlf.catalog.accessKeySecret' = '<dlf.catalog.accessKeySecret>', 'dlf.catalog.endpoint' = '<dlf.catalog.endpoint>', 'dlf.catalog.region' = '<dlf.catalog.region>', 'fs.oss.endpoint' = '<fs.oss.endpoint>', 'fs.oss.accessKeyId' = '<fs.oss.accessKeyId>', 'fs.oss.accessKeySecret' = '<fs.oss.accessKeySecret>' );
配置项参数说明如下。
通用
配置项
说明
是否必填
备注
my-catalog
Paimon Catalog名称。
是
请填写为自定义的英文名。
type
Catalog类型。
是
固定值为paimon。
metastore
元数据存储类型。
是
固定值为dlf。
OSS
配置项
说明
是否必填
备注
warehouse
OSS服务中所指定的数仓目录。
是
格式为oss://<bucket>/<object>。其中:
bucket:表示您创建的OSS Bucket名称。
object:表示您存放数据的路径。
请在OSS管理控制台上查看您的bucket和object名称。
fs.oss.endpoint
OSS服务的连接地址。
是
如果Flink与DLF位于同一地域,则使用VPC网络Endpoint,否则使用公网Endpoint。
如果需要将Paimon表存储在OSS-HDFS中,则fs.oss.endpoint的值为
cn-<region>.oss-dls.aliyuncs.com
,例如cn-hangzhou.oss-dls.aliyuncs.com
。
fs.oss.accessKeyId
拥有读写OSS权限的阿里云账号或RAM账号的Accesskey ID。
是
获取方法请参见OSS地域和访问域名和创建AccessKey。
fs.oss.accessKeySecret
拥有读写OSS权限的阿里云账号或RAM账号的Accesskey secret。
是
DLF
配置项
说明
是否必填
备注
dlf.catalog.id
DLF数据目录ID。
是
请在数据湖构建控制台上查看数据目录对应的ID,具体操作请参见数据目录。
dlf.catalog.accessKeyId
访问DLF服务所需的Access Key ID。
是
获取方法请参见创建AccessKey。
dlf.catalog.accessKeySecret
访问DLF服务所需的Access Key Secret。
是
获取方法请参见创建AccessKey。
dlf.catalog.endpoint
DLF服务的Endpoint。
是
详情请参见已开通的地域和访问域名。
说明如果Flink与DLF位于同一地域,则使用VPC网络Endpoint,否则使用公网Endpoint。
dlf.catalog.region
DLF所在区域。
是
详情请参见已开通的地域和访问域名。
说明请和dlf.catalog.endpoint选择的地域保持一致
管理Paimon数据库
在数据查询文本编辑区域输入如下命令,选中代码后单击运行。
创建数据库
创建Paimon Catalog后,Catalog中会自动创建名为
default
的数据库。--my-catalog需要替换为您创建的Paimon Catalog名称。 USE CATALOG `my-catalog`; --my_db需要替换为自定义的database英文名称。 CREATE DATABASE `my_db`;
删除数据库
重要无法删除DLF类型Catalog下的default数据库,允许删除Filesystem类型Catalog下的default数据库。
--my-catalog需要替换为您创建的Paimon Catalog名称。 USE CATALOG `my-catalog`; --my_db需要替换为您想要删除的数据库名称。 DROP DATABASE `my_db`; --只需要删除内部没有任何表的数据库。 DROP DATABASE `my_db` CASCADE; --删除数据库且同时删除数据库下的所有表。
管理Paimon表
创建表
修改表结构
删除表
查看或删除Paimon Catalog
在实时计算控制台,单击目标工作空间操作列的控制台。
在数据管理页面,查看或删除Paimon Catalog。
查看:在Catalog列表页面,查看Catalog名称和类型。如果您需要查看Catalog下的数据库和表,请单击查看。
删除:在Catalog列表页面,单击目标Catalog名称对应操作列的删除。
说明删除Paimon Catalog只会删除Flink项目空间数据管理中的记录,不会影响Paimon表的数据文件。删除Catalog后,只需要重新执行创建Paimon Catalog,即可重新使用Catalog中的Paimon表。
您也可以在数据查询文本编辑区域输入
DROP CATALOG <catalog name>;
,选中代码后单击运行。
相关文档
创建Paimon表后,您可以从Paimon表中消费数据或向Paimon表中写入数据,详情请参见Paimon表数据写入和消费。
如果内置的Catalog无法满足您的业务需求,您可以使用自定义Catalog,详情请参见管理自定义Catalog。
不同场景下Paimon主键表和Append Scalable表的常用优化,详情请参见Paimon性能优化。