全部产品

入湖模板

更新时间:2020-09-13 19:13:56

通过入湖模板,您可以定义数据入湖的方式和所消耗的资源。

页面概览

进入入湖模板页面,可以看到入湖的任务当前运行状态,手动停止运行中任务,启动一个入湖任务或删除入湖模板。

入湖模板

操作步骤

创建一个入湖模板,需要经过如下步骤。

  1. 登录数据湖管理控制台,选择数据接入 > 数据湖模板

  2. 指定入湖模板的类型,当前的入湖模板包括5种类型,用在不同的数据入湖场景。

    数据胡模板

    • 全量数据库:可以实现RDS MySQL数据库表数据全量同步到数据湖,选择在数据源管理中配置好的RDS MySQL链接,将数据源对应数据库中选定表的数据全量同步到OSS中,如果待同步表中数据量大,则所消耗的资源也会比较大,建议在业务低谷期执行此类任务,避免对业务连续性产生影响。待抽取的MySQL表需确认包含主键,否则抽取任务会报错。

    • 增量数据库:可以实现RDS MySQL数据库表数据增量同步到数据湖,选择在数据源管理中配置好的RDS MySQL链接,将数据源对应数据库中选定表的数据抽取binlog的方式将数据库表数据实时同步回放到数据湖中。待抽取的MySQL表需确认包含主键,否则抽取任务会报错。

    • 实时SLS:可以实现阿里云日志服务SLS数据实时同步到数据湖,您可以选择当前账号下的SLS Project,该Project下对应的Log Store,实时的将数据同步到数据湖中。

    • 实时OTS:可以实现将阿里云表格存储OTS数据同步到数据湖中,入湖任务通过实时读取binlog方式,实时的将OTS指定表数据同步到数据湖中。

    • OSS格式转换:可以实现OSS已有数据格式进行转换,如text转parquet等。

  3. 配置数据即将入湖的位置。

  4. 配置入湖工作流的属性,设置工作流名称,设置数据湖构建服务所代理的角色,默认角色为AliyunDLFWorkFlowDefaultRole,您可以根据业务需要在RAM中自定义一个Role。

  5. 运行工作流所需要的资源,数据湖构建采用计算单元为计算单位,1个计算单元(CU,Computing Unit)包含2 vCPU,8GiB内存的计算资源。

  6. 设置工作流触发方式,手动方式或定时调度的方式。

    配置工作流