本文为您介绍如何将Serverless Spark与DLF Paimon Catalog进行对接,帮助您实现高效的数据湖分析。
使用限制
仅支持使用esr-4.3.0、esr-3.3.0、esr-2.7.0及以上版本。
暂不支持在Livy Gateway、Kyuubi Gateway中原生使用,临时方案请参见在Gateway中使用DLF。
创建DLF Paimon Catalog
详情请参见DLF 快速入门。
在Serverless Spark中绑定DLF Paimon Catalog
您可以新建Serverless Spark工作空间并绑定使用DLF Paimon Catalog,也可以在已有的Serverless Spark工作空间中绑定使用DLF Paimon Catalog。
在新建Serverless Spark工作空间时绑定
创建Serverless Spark工作空间,详情请参见创建工作空间。
创建时,开启DLF作为元数据服务,并选择上述步骤中创建的DLF Catalog。
在已有Serverless Spark工作空间中绑定
进入Serverless Spark工作空间数据目录页面,并添加上述步骤中创建的DLF Catalog,详情请参见管理数据目录。
单个工作空间不支持同时添加多个版本的DLF数据目录,如果您当前工作空间已经添加了DLF 1.0数据目录,使用DLF数据目录时可以重新创建工作空间,或先移除DLF 1.0数据目录再重新添加DLF数据目录,移除前请确保当前工作空间内没有线上任务使用被移除的数据目录。
在Gateway中使用DLF
当前Serverless Spark的Gateway(包括Kyuubi和Livy)还未对DLF产品化适配,需要通过手动配置方式进行访问。本章节以Livy Gateway为例,对Serverless Spark工作空间中通过Gateway访问DLF的配置进行说明,后续Serverless Spark完整支持Gateway访问DLF的功能后,将不需要使用手动配置的临时方案。
步骤一:给Livy Gateway创建一个新的关闭DLF元数据的临时工作空间
创建Serverless Spark工作空间,详情请参见创建工作空间。
创建时,关闭DLF作为元数据服务,该工作空间仅作为Livy Gateway使用。
步骤二:创建Livy Gateway
创建Livy Gateway,详情请参见创建Livy Gateway。关键配置如下:
引擎版本:选择esr-4.3.0、esr-3.3.0、esr-2.7.0及以上版本。
spark-default.conf:填写如下配置。
spark.sql.extensions org.apache.paimon.spark.extensions.PaimonSparkSessionExtensions spark.sql.catalog.paimon org.apache.paimon.spark.SparkCatalog spark.sql.catalog.paimon.metastore rest spark.sql.catalog.paimon.uri http://<region_id>-vpc.dlf.aliyuncs.com spark.sql.catalog.paimon.warehouse <catalog_name> spark.sql.catalog.paimon.token.provider dlf spark.sql.catalog.paimon.dlf.access-key-id <access_key_id> spark.sql.catalog.paimon.dlf.access-key-secret <access_key_secret> spark.sql.defaultCatalog paimon
参数说明如下。
参数
说明
region_id
可用区名称,例如cn-wulanchabu。
catalog_name
使用的DLF Paimon Catalog名称。
access_key_id
阿里云账号或者RAM用户的AccessKey ID。详情请参见查看RAM用户的AccessKey信息。
access_key_secret
阿里云账号或者RAM用户的AccessKey Secret。
相关文档
Serverless Spark其他操作请参见: