数据湖构建(Data Lake Formation,简称DLF)支持多种入湖任务类型用于快速构建数据湖,通过入湖任务,您可以定义数据入湖的方式和所消耗的资源。本文为您介绍入湖任务的基础操作。
数据入湖功能已经停止更新,如果您有数据入湖需求请参考:数据入湖停止更新公告。
页面概览
访问入湖任务管理页面,可以查看入湖任务的当前运行状态、执行进度、创建时间与修改时间等信息,手动停止、启动或删除一个入湖任务。
创建入湖任务
您可以参考如下步骤创建一个入湖任务。
登录数据湖构建控制台,选择数据入湖 > 入湖任务管理。
单击新建入湖任务,选择入湖任务类型。DLF目前支持6种类型的入湖任务,用于满足不同的数据入湖场景。
关系数据库全量入湖:可以实现RDS MySQL或PolarDB数据库表数据全量同步到数据湖,选择在数据源管理中配置好的数据源,将数据源对应数据库中选定表的数据全量同步到OSS中,如果待同步表中数据量大,则所消耗的资源也会比较大,建议在业务低谷期执行此类任务,避免对业务连续性产生影响。待抽取的数据表须确认包含主键,否则抽取任务会报错。
关系数据库实时入湖:可以实现RDS MySQL或PolarDB数据库表数据增量同步到数据湖,选择在数据源管理中配置好的数据源,将数据源对应数据库中选定表的数据抽取binlog的方式将数据库表数据实时同步回放到数据湖中。待同步的数据表需确认包含主键,否则抽取任务会报错。
SLS日志实时入湖:可以实现阿里云日志服务SLS数据实时同步到数据湖,您可以选择当前账号下的SLS Project,该Project下对应的Log Store,实时的将数据同步到数据湖中。
表格存储(TableStore)实时入湖:可以实现将阿里云表格存储TableStore(原OTS)数据同步到数据湖中,入湖任务通过实时读取binlog方式,实时的将TableStore指定表数据同步到数据湖中。
OSS数据格式转换:可以实现对阿里云对象存储OSS中已有数据进行格式转换,如CSV转Parquet、Parquet转Delta等。
Kafka实时入湖:可以实现将阿里云消息队列Kafka或EMR Kafka的数据实时同步到数据湖中,支持用户自定义预处理算子。
配置数据源与目标数据湖信息。
配置数据源。不同类型的入湖任务配置项有所差异。以关系数据库全量入湖为例,如下图所示。
配置目标数据湖信息。主要包括:
所属数据目录:选择所属数据目录(Catalog)。
目标元数据库:目标表所在的元数据库。
目标元数据表名称:定义目标表名称。
存储格式:选择数据在数据湖中的存储格式,目前支持Delta,Iceberg,Hudi,Parquet,ORC。
数据湖存储位置:数据存储的OSS路径,入湖任务会自动创建此处填写的空文件夹来存储数据。
分区信息:添加需要写入的分区信息。
分区表达式:填写描述分区值的获取方式,比如MySQL中from_unixtime(gmt_create)。
分区字段:填写分区字段名称,如pt,ds等。
配置任务信息。主要包括:
任务实例名称:设置入湖任务名称。
RAM角色:设置数据湖构建服务所代理的角色,默认角色为AliyunDLFWorkFlowDefaultRole。您可以根据业务需要在RAM中自定义一个Role。
最大资源使用量:设置运行入湖任务所需要的资源。数据湖构建采用计算单元为计算单位,1个计算单元(CU,Computing Unit)包含2 vCPU,8GiB内存的计算资源。
执行策略:设置入湖任务触发方式,手动方式或定时调度的方式。只有全量入湖任务需要设置。
查看入湖日志
您可以参考如下步骤查看一个入湖任务的日志。
登录数据湖构建控制台,选择数据入湖 > 入湖任务管理。
找到想要查看日志的入湖任务,点击右侧的“详情”按钮,进入如下入湖任务详情页面。
单击如上任务详情页面中的“查看日志”按钮,会弹出如下日志详情窗口。
删除入湖任务
您可以参考如下步骤删除一个入湖任务。
登录数据湖构建控制台,选择数据入湖 > 入湖任务管理。
找到想要删除的入湖任务,点击右侧的“删除”按钮,在弹框中点击“确认”按钮。