入湖基础操作

数据湖构建(Data Lake Formation,简称DLF)支持多种入湖任务类型用于快速构建数据湖,通过入湖任务,您可以定义数据入湖的方式和所消耗的资源。本文为您介绍入湖任务的基础操作。

页面概览

访问入湖任务管理页面,可以查看入湖任务的当前运行状态、执行进度、创建时间与修改时间等信息,手动停止、启动或删除一个入湖任务。

入湖任务管理

创建入湖任务

您可以参考如下步骤创建一个入湖任务。

  1. 登录数据湖构建控制台,选择数据入湖 > 入湖任务管理

  2. 单击新建入湖任务,选择入湖任务类型。DLF目前支持6种类型的入湖任务,用于满足不同的数据入湖场景。

    新建入湖任务
    • 关系数据库全量入湖:可以实现RDS MySQL或PolarDB数据库表数据全量同步到数据湖,选择在数据源管理中配置好的数据源,将数据源对应数据库中选定表的数据全量同步到OSS中,如果待同步表中数据量大,则所消耗的资源也会比较大,建议在业务低谷期执行此类任务,避免对业务连续性产生影响。待抽取的数据表须确认包含主键,否则抽取任务会报错。

    • 关系数据库实时入湖:可以实现RDS MySQL或PolarDB数据库表数据增量同步到数据湖,选择在数据源管理中配置好的数据源,将数据源对应数据库中选定表的数据抽取binlog的方式将数据库表数据实时同步回放到数据湖中。待同步的数据表需确认包含主键,否则抽取任务会报错。

    • SLS日志实时入湖:可以实现阿里云日志服务SLS数据实时同步到数据湖,您可以选择当前账号下的SLS Project,该Project下对应的Log Store,实时的将数据同步到数据湖中。

    • 表格存储(TableStore)实时入湖:可以实现将阿里云表格存储TableStore(原OTS)数据同步到数据湖中,入湖任务通过实时读取binlog方式,实时的将TableStore指定表数据同步到数据湖中。

    • OSS数据格式转换:可以实现对阿里云对象存储OSS中已有数据进行格式转换,如CSV转Parquet、Parquet转Delta等。

    • Kafka实时入湖:可以实现将阿里云消息队列Kafka或EMR Kafka的数据实时同步到数据湖中,支持用户自定义预处理算子。

  3. 配置数据源与目标数据湖信息。

    • 配置数据源。不同类型的入湖任务配置项有所差异。以关系数据库全量入湖为例,如下图所示。

    配置数据源
    • 配置目标数据湖信息。主要包括:

      • 目标元数据库:目标表所在的元数据库。

      • 目标元数据表名称:定义目标表名称。

      • 存储格式:选择数据在数据湖中的存储格式,目前支持Delta,Iceberg,Hudi,Parquet,ORC。

      • 数据湖存储位置:数据存储的OSS路径,入湖任务会自动创建此处填写的空文件夹来存储数据。

    配置目标数据湖信息
  4. 配置任务信息。主要包括:

    • 任务实例名称:设置入湖任务名称。

    • RAM角色:设置数据湖构建服务所代理的角色,默认角色为AliyunDLFWorkFlowDefaultRole。您可以根据业务需要在RAM中自定义一个Role。

    • 最大资源使用量:设置运行入湖任务所需要的资源。数据湖构建采用计算单元为计算单位,1个计算单元(CU,Computing Unit)包含2 vCPU,8GiB内存的计算资源。

    • 执行策略:设置入湖任务触发方式,手动方式或定时调度的方式。只有全量入湖任务需要设置。

    配置入湖任务

查看入湖日志

您可以参考如下步骤查看一个入湖任务的日志。

  1. 登录数据湖构建控制台,选择数据入湖 > 入湖任务管理

  2. 找到想要查看日志的入湖任务,点击右侧的“详情”按钮,进入如下入湖任务详情页面。

    入湖基础操作-入湖任务详情
  3. 单击如上任务详情页面中的“查看日志”按钮,会弹出如下日志详情窗口。

入湖基础操作-日志详情

删除入湖任务

您可以参考如下步骤删除一个入湖任务。

  1. 登录数据湖构建控制台,选择数据入湖 > 入湖任务管理

  2. 找到想要删除的入湖任务,点击右侧的“删除”按钮,在弹框中点击“确认”按钮。

    删除入湖任务
阿里云首页 数据湖构建 相关技术圈