快速使用DLF

更新时间:2025-04-22 09:58:31

本文为您介绍在数据湖构建中如何快速使用DLF。

前提条件

在使用DLF前,已完成阿里云账号角色授权,且已开通DLF服务。详情请参见授权并开通DLF

说明

授权和开通操作仅需在首次使用DLF时完成。

创建Catalog

您可以根据使用场景、数据规模、服务可靠性,以及预算等要求,配置合适的Catalog。

  1. 登录数据湖构建控制台

  2. Catalog列表页面,单击新建Catalog,配置以下信息。

    配置项

    说明

    配置项

    说明

    Catalog类型

    Paimon:湖表存储格式为Paimon,新业务推荐使用。

    Catalog名称

    必选,唯一标识,不可重名。

    描述

    可选,输入描述信息。

    存储类型

    标准存储。

    存储冗余类型

    可选以下两种类型:

    • 本地冗余(默认):数据存储在单可用区(AZ)。当该可用区不可用时,会导致相关数据不可访问,推荐使用同城冗余。

    • 同城冗余:同一地域(Region)内多可用区(AZ)冗余机制,当某个可用区(AZ)不可用时,仍能保证数据可用性。

    说明
    • Catalog创建后,同城冗佘不可变更为本地冗余。

    • 相比本地冗余,同城冗余能够提供更高的数据可用性,但价格也相对更高。对数据高可用性要求较高的场景,推荐使用同城冗余。

  3. 勾选服务协议,并单击创建Catalog

更多关于Catalog的操作,请参见数据目录

数据入湖

您可以根据数据源和同步类型,选择使用Flink CDC、DataWorks数据集成等工具将原始数据同步到数据湖中。

湖数据分析

您可以根据业务需求,使用EMR Serverless Spark进行批读批写,使用全托管版Flink进行流式读取与写入,使用EMR Serverless Starrocks进行湖分析,挖掘湖中数据价值。

  • 本页导读 (0)
  • 前提条件
  • 创建Catalog
  • 数据入湖
  • 湖数据分析
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等