入湖基础操作_数据湖构建(DLF)-阿里云帮助中心

数据湖构建（Data Lake Formation，简称DLF）支持多种入湖任务类型用于快速构建数据湖，通过入湖任务，您可以定义数据入湖的方式和所消耗的资源。本文为您介绍入湖任务的基础操作。

重要

数据入湖功能已经停止更新，如果您有数据入湖需求请参考：数据入湖停止更新公告。

页面概览

访问入湖任务管理页面，可以查看入湖任务的当前运行状态、执行进度、创建时间与修改时间等信息，手动停止、启动或删除一个入湖任务。

入湖任务管理

创建入湖任务

您可以参考如下步骤创建一个入湖任务。

登录数据湖构建控制台，选择数据入湖 > 入湖任务管理。
单击新建入湖任务，选择入湖任务类型。DLF目前支持6种类型的入湖任务，用于满足不同的数据入湖场景。
- 关系数据库全量入湖：可以实现RDS MySQL或PolarDB数据库表数据全量同步到数据湖，选择在数据源管理中配置好的数据源，将数据源对应数据库中选定表的数据全量同步到OSS中，如果待同步表中数据量大，则所消耗的资源也会比较大，建议在业务低谷期执行此类任务，避免对业务连续性产生影响。待抽取的数据表须确认包含主键，否则抽取任务会报错。
- 关系数据库实时入湖：可以实现RDS MySQL或PolarDB数据库表数据增量同步到数据湖，选择在数据源管理中配置好的数据源，将数据源对应数据库中选定表的数据抽取binlog的方式将数据库表数据实时同步回放到数据湖中。待同步的数据表需确认包含主键，否则抽取任务会报错。
- SLS日志实时入湖：可以实现阿里云日志服务SLS数据实时同步到数据湖，您可以选择当前账号下的SLS Project，该Project下对应的Log Store，实时的将数据同步到数据湖中。
- 表格存储（TableStore）实时入湖：可以实现将阿里云表格存储TableStore（原OTS）数据同步到数据湖中，入湖任务通过实时读取binlog方式，实时的将TableStore指定表数据同步到数据湖中。
- OSS数据格式转换：可以实现对阿里云对象存储OSS中已有数据进行格式转换，如CSV转Parquet、Parquet转Delta等。
- Kafka实时入湖：可以实现将阿里云消息队列Kafka或EMR Kafka的数据实时同步到数据湖中，支持用户自定义预处理算子。
配置数据源与目标数据湖信息。
- 配置数据源。不同类型的入湖任务配置项有所差异。以关系数据库全量入湖为例，如下图所示。
- 配置目标数据湖信息。主要包括：
  - 所属数据目录：选择所属数据目录（Catalog）。
  - 目标元数据库：目标表所在的元数据库。
  - 目标元数据表名称：定义目标表名称。
  - 存储格式：选择数据在数据湖中的存储格式，目前支持Delta，Iceberg，Hudi，Parquet，ORC。
  - 数据湖存储位置：数据存储的OSS路径，入湖任务会自动创建此处填写的空文件夹来存储数据。
  - 分区信息：添加需要写入的分区信息。
    - 分区表达式：填写描述分区值的获取方式，比如MySQL中from_unixtime(gmt_create)。
    - 分区字段：填写分区字段名称，如pt，ds等。
配置任务信息。主要包括：
- 任务实例名称：设置入湖任务名称。
- RAM角色：设置数据湖构建服务所代理的角色，默认角色为AliyunDLFWorkFlowDefaultRole。您可以根据业务需要在RAM中自定义一个Role。
- 最大资源使用量：设置运行入湖任务所需要的资源。数据湖构建采用计算单元为计算单位，1个计算单元（CU，Computing Unit）包含2 vCPU，8GiB内存的计算资源。
- 执行策略：设置入湖任务触发方式，手动方式或定时调度的方式。只有全量入湖任务需要设置。