通过整库迁移配置集成任务

更新时间: 2023-06-29 11:19:24

离线整库迁移可用于将本地数据中心或在ECS上自建的数据库同步数据至大数据计算服务,MaxCompute、Hive、TDH Inceptor等数据源。本文为您介绍如何新建并配置整库迁移任务。

功能介绍

离线整库迁移是一个提升用户效率、降低用户使用成本的一种快捷工具。相对于离线单条管道,离线整库迁移可以批量配置离线管道,一次性完成数据库内多张数据表的同步文件的配置。

整库迁移支持的数据源

整库迁移支持MySQL、Microsoft SQL Server、Oracle、OceanBase来源端的数据迁移。来源端和目标端迁移支持的数据源类型如下:

数据源类型

数据源

来源端数据源类型

MySQL、Microsoft SQL Server、Oracle、OceanBase、IBM DB2。

目标端数据源类型

Hive、TDH Inceptor、ADB_FOR_PG、MaxCompute。

前提条件

已完成所需迁移的数据源创建。数据源创建请参见Dataphin支持的数据源

操作步骤

  1. 请参见数据集成入口,进行数据集成页面。

  2. 在数据集成页面,按照下图操作指引,进入新建整库迁移页面。

    image
  3. 新建整库迁移页面,配置参数。

    1. 配置基本信息

      image

      参数

      描述

      脚本名称

      命名规则如下:

      由字母、数字或下划线(_)组合组成,且字符长度为64个字符以内。

      描述

      填写脚本管道的简单描述。需在128个字符以内。

    2. 配置数据源信息。

      image

      分区

      参数

      描述

      同步来源

      数据源类型

      选择同步来源的数据源类型。Dataphin支持的同步来源数据源类型包括MySQL、Microsoft SQL Server、Oracle、OceanBase、IBM DB2。数据源创建,请参见:

      数据源

      选择来源数据源。若无所需数据源,您也可以单击新建数据源进行创建。

      同步目标

      数据源类型

      选择数据源类型。支持选择MaxCompute、Hive、TDH Inceptor和AnalyticDB for PostgreSQL。

      说明
      • 同步至AnalyticDB for PostgreSQL数据源,系统每日会为目标表创建一个日期分区。

      • 若有其他分区需要,可以在生成管道后,点击单条管道修改分区相关的准备语句。

      数据源

      选择目标数据源。Dataphin支持的同目标数据源类型包括Hive、Oracle、TDH Inceptor、ADB_FOR_PG、MaxCompute。若无所需数据源,您也可以单击新建数据源进行创建。数据源创建,请参见:

    3. 配置同步数据表。

      image

      参数

      描述

      来源表

      勾选所需同步的来源表。

      对应目标库表

      选择来源表后,生成对应目标库表,名称默认与源表名一致。

      转换配置

      非必选,转换配置可将您来源表的表名、字段名进行替换或过滤数据后进行同步。

      1. 单击转换配置

      2. 编辑转换规则页面:

        • 表名转换:单击表名转换后的新增规则,在规则项中填写源表名所需替换的字符和替换后字符。如:需将表名datawork替换为dataphin,则待替换字符为work,替换的字符为phin

        • 字段名转换:单击字段名转换后的新增规则,在规则项中填写源字段所需替换的字符和替换后字符。如:需将字段名datawork替换为dataphin,则待替换字符为work,替换的字符为phin

        • 表名前缀表名前缀输入框中填写目标库表的表名前缀。同步时将自动生成目标库表的前缀,如:表名前缀填写pre_,表名为dataphin,则生成的目标库表名为pre_dataphin

        • 数据过滤输入框中填写过滤条件,同步时将过滤符合条件的数据。例如gmt_modified>=${bizdate}

          image
      3. 配置完成后单击保存并执行对应目标库表将展示转换后的目标库表名。

      完成同步数据表的配置后,页面为您展示生成的管道数。同时您也可以选中自动删除数据源中同名表,选中后Dataphin会先自动删除数据源中已经存在的,且与整库生成同名的表,再重新自动创建表。

      image
    4. 设置同步方式和调度配置与上游依赖。

      image

      参数

      描述

      同步方式设置

      选择同步方式。同步方式设置包括每日全量每日增量

      每日全量系统将会每日全量同步迁移源数据。

      每日增量设置每日增量需设置日期字段,用于系统标识数据变更时间的唯一字段,同步时,系统将会抽取时间为业务日期范围内的数据。

      image

      调度配置

      选择调度配置。调度配置包括同时调度分批调度

      同时调度:指每日零点同时执行源库所选择表的同步任务。

      分批调度:指将源库所选择的表按批次的方式逐批执行同步任务。

      上游依赖

      单击添加依赖对象,可在添加物理任务对话框中勾选该节点的上游依赖。如不配置,则默认配置租户的虚拟根节点作为上游依赖,您也可手动添加一个虚拟节点作为该节点的依赖对象。适用于需统一补数据等场景。

      image
  4. 完成参数的配置后,单击生成管道,完成离线整库迁移管道的创建。

    运行结果区域,可查看管道任务生成的运行状态。image

  5. 管道生成后,在离线管道任务目录列表整库迁移任务下将生成对应的离线管道。您可按照下图操作指引,对生成的离线管道任务进行提交或配置等操作。详情请参见通过离线单条管道配置集成任务。

    image

    如果项目空间的模式为Dev-Prod,则需要发布生成的离线管道任务至生产环境。具体操作,请参见管理发布任务

后续步骤

您可在运维中心查看并运维集成任务,保证任务的正常运行。更多信息,请参见运维中心概述

阿里云首页 智能数据建设与治理 Dataphin 相关技术圈