Serverless Spark对接DLF Paimon Catalog

本文为您介绍如何将Serverless SparkDLF Paimon Catalog进行对接,帮助您实现高效的数据湖分析。

使用限制

  • 仅支持使用esr-4.3.0、esr-3.3.0、esr-2.7.0及以上版本。

  • 暂不支持在Livy Gateway、Kyuubi Gateway中原生使用,临时方案请参见Gateway中使用DLF

创建DLF Paimon Catalog

详情请参见DLF 快速入门

Serverless Spark中绑定DLF Paimon Catalog

您可以新建Serverless Spark工作空间并绑定使用DLF Paimon Catalog,也可以在已有的Serverless Spark工作空间中绑定使用DLF Paimon Catalog。

在新建Serverless Spark工作空间时绑定

创建Serverless Spark工作空间,详情请参见创建工作空间

重要

创建时,开启DLF作为元数据服务,并选择上述步骤中创建的DLF Catalog。

image

在已有Serverless Spark工作空间中绑定

进入Serverless Spark工作空间数据目录页面,并添加上述步骤中创建的DLF Catalog,详情请参见管理数据目录

说明

单个工作空间不支持同时添加多个版本的DLF数据目录,如果您当前工作空间已经添加了DLF 1.0数据目录,使用DLF数据目录时可以重新创建工作空间,或先移除DLF 1.0数据目录再重新添加DLF数据目录,移除前请确保当前工作空间内没有线上任务使用被移除的数据目录。

Gateway中使用DLF

当前Serverless SparkGateway(包括KyuubiLivy)还未对DLF产品化适配,需要通过手动配置方式进行访问。本章节以Livy Gateway为例,对Serverless Spark工作空间中通过Gateway访问DLF的配置进行说明,后续Serverless Spark完整支持Gateway访问DLF的功能后,将不需要使用手动配置的临时方案。

步骤一:给Livy Gateway创建一个新的关闭DLF元数据的临时工作空间

创建Serverless Spark工作空间,详情请参见创建工作空间

重要

创建时,关闭DLF作为元数据服务,该工作空间仅作为Livy Gateway使用。

步骤二:创建Livy Gateway

创建Livy Gateway,详情请参见创建Livy Gateway。关键配置如下:

  • 引擎版本:选择esr-4.3.0、esr-3.3.0、esr-2.7.0及以上版本。

  • spark-default.conf:填写如下配置。

    spark.sql.extensions                            org.apache.paimon.spark.extensions.PaimonSparkSessionExtensions
    spark.sql.catalog.paimon                        org.apache.paimon.spark.SparkCatalog
    spark.sql.catalog.paimon.metastore              rest
    spark.sql.catalog.paimon.uri                    http://<region_id>-vpc.dlf.aliyuncs.com
    spark.sql.catalog.paimon.warehouse              <catalog_name>
    spark.sql.catalog.paimon.token.provider         dlf
    spark.sql.catalog.paimon.dlf.access-key-id      <access_key_id>
    spark.sql.catalog.paimon.dlf.access-key-secret  <access_key_secret>
    spark.sql.defaultCatalog                        paimon

    参数说明如下。

    参数

    说明

    region_id

    可用区名称,例如cn-wulanchabu。

    catalog_name

    使用的DLF Paimon Catalog名称。

    access_key_id

    阿里云账号或者RAM用户的AccessKey ID。详情请参见查看RAM用户的AccessKey信息

    access_key_secret

    阿里云账号或者RAM用户的AccessKey Secret。

相关文档

Serverless Spark其他操作请参见: