Serverless Spark访问DLF

如何在Serverless Spark通过Paimon REST访问DLF Catalog。

使用限制

  • 仅支持使用esr-4.3.0、esr-3.3.0、esr-2.7.0及以上版本。

  • 暂不支持在Livy Gateway、Kyuubi Gateway中原生使用,临时方案请参见Gateway中使用DLF

创建DLF Catalog

详情请参见DLF 快速入门

Serverless Spark中绑定DLF Catalog

您可以新建Serverless Spark工作空间并绑定使用DLF Catalog,也可以在已有的Serverless Spark工作空间中绑定使用DLF Catalog。

在新建Serverless Spark工作空间时绑定

创建Serverless Spark工作空间,详情请参见创建工作空间

重要

创建时,开启DLF作为元数据服务,并选择上述步骤中创建的DLF Catalog。

image

在已有Serverless Spark工作空间中绑定

进入Serverless Spark工作空间数据目录页面,并添加上述步骤中创建的DLF Catalog,详情请参见管理数据目录

说明

单个工作空间不支持同时添加多个版本的DLF数据目录,如果您当前工作空间已经添加了DLF-Legacy数据目录,使用DLF数据目录时可以重新创建工作空间,或先移除DLF-Legacy数据目录再重新添加DLF数据目录,移除前请确保当前工作空间内没有线上任务使用被移除的数据目录。

Gateway中使用DLF

当前Serverless SparkGateway(包括KyuubiLivy)还未对DLF产品化适配,需要通过手动配置方式进行访问。本章节以Livy Gateway为例,对Serverless Spark工作空间中通过Gateway访问DLF的配置进行说明,后续Serverless Spark完整支持Gateway访问DLF的功能后,将不需要使用手动配置的临时方案。

步骤一:给Livy Gateway创建一个新的关闭DLF元数据的临时工作空间

创建Serverless Spark工作空间,详情请参见创建工作空间

重要

创建时,关闭DLF作为元数据服务,该工作空间仅作为Livy Gateway使用。

步骤二:创建Livy Gateway

创建Livy Gateway,详情请参见创建Livy Gateway。关键配置如下:

  • 引擎版本:选择esr-4.3.0、esr-3.3.0、esr-2.7.0及以上版本。

  • spark-default.conf:填写如下配置。

    spark.sql.extensions                            org.apache.paimon.spark.extensions.PaimonSparkSessionExtensions
    spark.sql.catalog.paimon                        org.apache.paimon.spark.SparkCatalog
    spark.sql.catalog.paimon.metastore              rest
    spark.sql.catalog.paimon.uri                    http://<region_id>-vpc.dlf.aliyuncs.com
    spark.sql.catalog.paimon.warehouse              <catalog_name>
    spark.sql.catalog.paimon.token.provider         dlf
    spark.sql.catalog.paimon.dlf.access-key-id      <access_key_id>
    spark.sql.catalog.paimon.dlf.access-key-secret  <access_key_secret>
    spark.sql.defaultCatalog                        paimon

    参数说明如下。

    参数

    说明

    region_id

    可用区名称,例如cn-wulanchabu。

    catalog_name

    使用的DLF Catalog名称。

    access_key_id

    阿里云账号或者RAM用户的AccessKey ID。详情请参见查看RAM用户的AccessKey信息

    access_key_secret

    阿里云账号或者RAM用户的AccessKey Secret。

相关文档

Serverless Spark其他操作请参见: