使用DLF Catalog

DLF提供全托管Paimon元数据和数据的存储及管理服务,支持多种存储优化策略,可以提供更加安全和更高性能的湖管理。本文将介绍如何在EMR Serverless StarRocks中使用阿里云DLF Catalog。

背景信息

阿里云数据湖构建(Data Lake Formation,简称DLF)是一款全托管的统一元数据和数据存储及管理平台。

使用DLF

前提条件

  • 已创建Serverless StarRocks实例,详情请参见创建实例

    实例版本须为3.3小版本须为3.3.8-1.99及以上。

    说明

    您可以在实例详情页面的版本信息区域查看小版本信息。如果小版本低于3.3.8-1.99,请升级小版本,详情请参见升级小版本

  • 已创建DLF及以上的数据目录,详情请参见数据目录

使用DLF Paimon Catalog示例

步骤一:在Serverless StarRocks中添加用户

重要

DLF的访问控制是RAM级别的。默认情况下所有StarRocks用户均不具备DLF的任何权限,因此您必须添加一个已存在的RAM用户并进行授权。如果未创建RAM用户,请参见创建RAM用户

  1. 进入EMR Serverless StarRocks实例列表页面。

    1. 登录E-MapReduce控制台

    2. 在左侧导航栏,选择EMR Serverless > StarRocks

    3. 在顶部菜单栏处,根据实际情况选择地域。

  2. 实例列表页面,单击已创建实例操作列的连接实例,详情请参见通过EMR StarRocks Manager连接StarRocks实例

    您可以选择使用adminStarRocks超级管理员权限,以连接StarRocks实例。

  3. 左侧菜单栏,选择安全中心 > 用户管理,然后单击添加用户

  4. 添加用户对话框中,配置以下信息,然后单击确定

    • 用户来源:选择RAM用户

    • 用户名:选择上一步授权的RAM用户(dlf-test)。

    • 密码确认密码:自定义。

    • 角色:默认public即可。

步骤二:在DLF中为Catalog授权

  1. 登录数据湖构建控制台

  2. 数据目录页面,单击Catalog名称。

  3. 单击权限页签,单击授权

  4. 在选择授权对象下拉列表中,选择已有的RAM用户(dlf-test)。

  5. 预置权限类型选择自定义,授权该用户当前数据目录及其下所有资源的ALL权限。

  6. 单击确定

步骤三:在Serverless StarRocks中创建DLF Catalog

  1. 通过EMR StarRocks Manager连接StarRocks实例

    重要

    请使用步骤一中添加的RAM用户(dlf-test),重新连接至StarRocks实例,并创建SQL查询,以便访问DLF外表。

  2. SQL Editor查询列表页面,单击image图标,创建SQL查询。

  3. 输入以下SQL,单击运行

    CREATE EXTERNAL CATALOG `dlf_catalog`
    PROPERTIES (
    'type' = 'paimon',
    'uri' = 'http://cn-hangzhou-vpc.dlf.aliyuncs.com',
    'paimon.catalog.type' = 'rest',
    'paimon.catalog.warehouse' = 'StarRocks_test',
    'token.provider' = 'dlf'
    );

步骤四:在Serverless StarRocks中读写数据

创建数据库
CREATE DATABASE IF NOT EXISTS dlf_catalog.sr_dlf_db;
创建数据表
CREATE TABLE dlf_catalog.sr_dlf_db.ads_age_pvalue_analytics(
    final_gender_code STRING COMMENT '性别',
    age_level STRING COMMENT '年龄层次',
    pvalue_level STRING COMMENT '消费档次',
    clicks INT COMMENT '点击次数',
    total_behaviors INT COMMENT '总行为次数'
);
插入数据
INSERT INTO dlf_catalog.sr_dlf_db.ads_age_pvalue_analytics (final_gender_code, age_level, pvalue_level, clicks, total_behaviors)
VALUES 
('M', '18-24', 'Low', 1500, 2500),
('F', '25-34', 'Medium', 2200, 3300),
('M', '35-44', 'High', 2800, 4000);
查询数据
SELECT * FROM dlf_catalog.sr_dlf_db.ads_age_pvalue_analytics;

返回信息如下图所示。

image

使用DLF 1.0(旧版)

前提条件

  • 已创建Serverless StarRocks实例,详情请参见创建实例

  • 已创建DLF 1.0(旧版)的数据目录,详情请参见数据目录

创建Catalog

创建Hive Catalog

语法

CREATE EXTERNAL CATALOG <catalog_name>
[COMMENT <comment>]
PROPERTIES
(
    "type" = "hive",
    GeneralParams,
    MetastoreParams
)

参数说明

  • catalog_name:Hive Catalog的名称,必选参数。命名要求如下:

    • 必须由字母(a~zA~Z)、数字(0~9)或下划线(_)组成,并且只能以字母开头。

    • 总长度不能超过64个字符。

  • comment:Hive Catalog的描述。此参数为可选。

  • type:数据源的类型。设置为hive

  • GeneralParams:指定通用设置的一组参数。GeneralParams包含如下参数。

    参数

    是否必须

    说明

    enable_recursive_listing

    指定StarRocks是否递归读取表或者分区目录(包括子目录)中文件的数据。取值范围:

    • true(默认值):表示递归遍历。

    • false:表示只读取表或者分区目录当前层级中文件的数据。

  • MetastoreParams:StarRocks访问Hive集群元数据的相关参数配置。

    属性

    说明

    hive.metastore.type

    Hive使用的元数据类型,设置为dlf

    dlf.catalog.id

    DLF 1.0中已有的数据目录ID。仅当hive.metastore.type配置为dlf时需要填写该参数。如果未配置dlf.catalog.id参数的值,则系统将使用默认的DLF Catalog。

使用示例

CREATE EXTERNAL CATALOG hive_catalog
PROPERTIES
(
    "type" = "hive",
    "hive.metastore.type" = "dlf",
    "dlf.catalog.id" = "sr_dlf"
);

更多Hive Catalog详情,请参见Hive Catalog

创建Iceberg Catalog

语法

CREATE EXTERNAL CATALOG <catalog_name>
[COMMENT <comment>]
PROPERTIES
(
    "type" = "iceberg",
    MetastoreParams
)

参数说明

  • catalog_name:Iceberg Catalog的名称,必选参数。命名要求如下:

    • 必须由字母(a~zA~Z)、数字(0~9)或下划线(_)组成,并且只能以字母开头。

    • 总长度不能超过64个字符。

    • Catalog名称大小写敏感。

  • comment:Iceberg Catalog的描述,此参数为可选。

  • type:数据源的类型,设置为iceberg

  • MetastoreParams:StarRocks访问Iceberg集群元数据服务的相关参数配置。

    属性

    说明

    iceberg.catalog.type

    IcebergCatalog的类型,取值为dlf

    dlf.catalog.id

    DLF中已有的数据目录ID。如果未配置dlf.catalog.id参数的值,则系统将使用默认的DLF Catalog。

使用示例

CREATE EXTERNAL CATALOG iceberg_catalog_hms
PROPERTIES
(
    "type" = "iceberg",
    "iceberg.catalog.type" = "dlf",
    "dlf.catalog.id" = "sr_dlf"
);

更多Iceberg Catalog详情,请参见Iceberg Catalog

创建Paimon Catalog

语法

CREATE EXTERNAL CATALOG <catalog_name>
[COMMENT <comment>]
PROPERTIES
(
    "type" = "paimon",
    CatalogParams,
    StorageCredentialParams
);

参数说明

  • catalog_name:Paimon Catalog的名称,必选参数。命名要求如下:

    • 必须由字母(a~zA~Z)、数字(0~9)或下划线(_)组成,并且只能以字母开头。

    • 总长度不能超过64个字符。

  • comment:Paimon Catalog的描述。此参数为可选。

  • type:数据源的类型。设置为paimon

  • CatalogParams:StarRocks访问Paimon集群元数据的相关参数配置。Paimon集群使用的元数据类型不同,参数的配置也不同。

    属性

    是否必须

    说明

    paimon.catalog.type

    数据源类型,取值为dlf

    paimon.catalog.warehouse

    Paimon数据所在的Warehouse存储路径,支持HDFS、OSSOSS-HDFS。OSSOSS-HDFS格式为:oss://<yourBucketName>/<yourPath>

    重要

    若使用OSSOSS-HDFS作为warehouse,须配置参数aliyun.oss.endpoint。详情请参见StorageCredentialParams:StarRocks访问Paimon集群文件存储的相关参数配置。

    dlf.catalog.id

    DLF中已有的数据目录的ID。如果未配置dlf.catalog.id参数的值,则系统将使用默认的DLF Catalog。

  • StorageCredentialParams:StarRocks访问Paimon集群文件存储的相关参数配置。

    • 如果您使用HDFS作为存储系统,则不需要配置StorageCredentialParams

    • 如果您使用OSSOSS-HDFS,则必须配置StorageCredentialParams

      "aliyun.oss.endpoint" = "<YourAliyunOSSEndpoint>" 

      涉及参数说明如下表所示。

      属性

      说明

      aliyun.oss.endpoint

      使用OSSOSS-HDFS,相应的Endpoint信息如下:

      • OSS:您可以前往Bucket概览页的访问端口区域获Endpoint,也可以参见OSS地域和访问域名查看对应RegionEndpoint信息。如oss-cn-hangzhou.aliyuncs.com

      • OSS-HDFS:您可以前往Bucket概览页的访问端口区域获取HDFS服务Endpoint。以杭州地域为例,示例值为cn-hangzhou.oss-dls.aliyuncs.com

        重要

        使用该方式配置该参数后,您还需要在EMR Serverless StarRocks控制台的实例配置页面,修改core-site.xmljindosdk.cfg中的参数fs.oss.endpoint,参数值与aliyun.oss.endpoint保持一致。

使用示例

CREATE EXTERNAL CATALOG paimon_catalog
PROPERTIES
(
    "type" = "paimon",
    "paimon.catalog.type" = "dlf",
    "paimon.catalog.warehouse" = "oss://<yourBucketName>/<yourPath>",
    "dlf.catalog.id" = "paimon_dlf_test"
);

更多Paimon Catalog详情,请参见Paimon Catalog

创建DLF Paimon Catalog

语法

CREATE EXTERNAL CATALOG `<catalog_name>`
PROPERTIES (
'type' = 'paimon',
'uri' = 'http://cn-hangzhou-vpc.dlf.aliyuncs.com',
'paimon.catalog.type' = 'rest',
'paimon.catalog.warehouse' = 'xxx_test',
'token.provider' = 'dlf'
);

参数说明

参数

是否必须

说明

<catalog_name>

DLF数据目录(Catalog)的名称,例如,dlf_catalog

命名要求如下:

  • 必须由字母(a~zA~Z)、数字(0~9)或下划线(_)组成,并且只能以字母开头。

  • 总长度不能超过64个字符。

type

Catalog类型,DLF当前仅支持Paimon Catalog,填写固定值paimon

uri

DLFREST API地址 。

填写的格式为http://<VPC网络Endpoint>,其中 <VPC网络Endpoint>DLF服务在指定地域的VPC网络访问域名,详情请参见服务接入点

例如,http://cn-hangzhou-vpc.dlf.aliyuncs.com

paimon.catalog.type

Paimon Catalog类型,填写固定值rest

paimon.catalog.warehouse

Paimon Catalog的名称,您可以在数据湖构建控制台数据目录页面获取。

token.provider

Rest服务提供者,填写固定填dlf

相关文档

Paimon Catalog的更多介绍,请参见Paimon Catalog