快速使用DLF_数据湖构建(DLF)-阿里云帮助中心

本文为您介绍在数据湖构建中如何快速使用DLF。

前提条件

在使用DLF前，已完成阿里云账号角色授权，且已开通DLF服务。详情请参见授权并开通DLF。

说明

授权和开通操作仅需在首次使用DLF时完成。

您可以根据使用场景、数据规模、服务可靠性，以及预算等要求，配置合适的Catalog。

在Catalog列表页面，单击新建Catalog，配置以下信息。

配置项	说明

配置项	说明
Catalog类型	`Paimon`：湖表存储格式为Paimon，新业务推荐使用。
Catalog名称	必选，唯一标识，不可重名。
描述	可选，输入描述信息。
存储类型	标准存储。
存储冗余类型	可选以下两种类型：本地冗余（默认）：数据存储在单可用区（AZ）。当该可用区不可用时，会导致相关数据不可访问，推荐使用同城冗余。同城冗余：同一地域（Region）内多可用区（AZ）冗余机制，当某个可用区（AZ）不可用时，仍能保证数据可用性。说明 Catalog创建后，同城冗佘不可变更为本地冗余。相比本地冗余，同城冗余能够提供更高的数据可用性，但价格也相对更高。对数据高可用性要求较高的场景，推荐使用同城冗余。

更多关于Catalog的操作，请参见数据目录。

您可以根据数据源和同步类型，选择使用Flink CDC、DataWorks数据集成等工具将原始数据同步到数据湖中。

您可以根据业务需求，使用EMR Serverless Spark进行批读批写，使用全托管版Flink进行流式读取与写入，使用EMR Serverless Starrocks进行湖分析，挖掘湖中数据价值。