通过整库迁移配置集成任务
离线整库迁移可用于将本地数据中心或在ECS上自建的数据库同步数据至大数据计算服务,MaxCompute、Hive、TDH Inceptor等数据源。本文为您介绍如何新建并配置整库迁移任务。
功能介绍
离线整库迁移是一个提升用户效率、降低用户使用成本的一种快捷工具。相对于离线单条管道,离线整库迁移可以批量配置离线管道,一次性完成数据库内多张数据表的同步文件的配置。
整库迁移支持的数据源
整库迁移支持MySQL、Microsoft SQL Server、Oracle、OceanBase来源端的数据迁移。来源端和目标端迁移支持的数据源类型如下:
数据源类型 | 数据源 |
来源端数据源类型 | MySQL、Microsoft SQL Server、Oracle、OceanBase、IBM DB2。 |
目标端数据源类型 | Hive、TDH Inceptor、ADB_FOR_PG、MaxCompute。 |
前提条件
已完成所需迁移的数据源创建。数据源创建请参见Dataphin支持的数据源。
操作步骤
请参见数据集成入口,进行数据集成页面。
在数据集成页面,按照下图操作指引,进入新建整库迁移页面。
在新建整库迁移页面,配置参数。
配置基本信息
参数
描述
脚本名称
命名规则如下:
由字母、数字或下划线(_)组合组成,且字符长度为64个字符以内。
描述
填写脚本管道的简单描述。需在128个字符以内。
配置数据源信息。
分区
参数
描述
同步来源
数据源类型
选择同步来源的数据源类型。Dataphin支持的同步来源数据源类型包括MySQL、Microsoft SQL Server、Oracle、OceanBase、IBM DB2。数据源创建,请参见:
数据源
选择来源数据源。若无所需数据源,您也可以单击新建数据源进行创建。
同步目标
数据源类型
选择数据源类型。支持选择MaxCompute、Hive、TDH Inceptor和AnalyticDB for PostgreSQL。
说明同步至AnalyticDB for PostgreSQL数据源,系统每日会为目标表创建一个日期分区。
若有其他分区需要,可以在生成管道后,点击单条管道修改分区相关的准备语句。
数据源
选择目标数据源。Dataphin支持的同目标数据源类型包括Hive、Oracle、TDH Inceptor、ADB_FOR_PG、MaxCompute。若无所需数据源,您也可以单击新建数据源进行创建。数据源创建,请参见:
配置同步数据表。
参数
描述
来源表
勾选所需同步的来源表。
对应目标库表
选择来源表后,生成对应目标库表,名称默认与源表名一致。
转换配置
非必选,转换配置可将您来源表的表名、字段名进行替换或过滤数据后进行同步。
单击转换配置。
在编辑转换规则页面:
表名转换:单击表名转换后的新增规则,在规则项中填写源表名所需替换的字符和替换后字符。如:需将表名
datawork
替换为dataphin
,则待替换字符为work
,替换的字符为phin
。字段名转换:单击字段名转换后的新增规则,在规则项中填写源字段所需替换的字符和替换后字符。如:需将字段名
datawork
替换为dataphin
,则待替换字符为work
,替换的字符为phin
。表名前缀:在表名前缀输入框中填写目标库表的表名前缀。同步时将自动生成目标库表的前缀,如:表名前缀填写
pre_
,表名为dataphin
,则生成的目标库表名为pre_dataphin
。在数据过滤输入框中填写过滤条件,同步时将过滤符合条件的数据。例如
gmt_modified>=${bizdate}
。
配置完成后单击保存并执行,对应目标库表将展示转换后的目标库表名。
完成同步数据表的配置后,页面为您展示生成的管道数。同时您也可以选中自动删除数据源中同名表,选中后Dataphin会先自动删除数据源中已经存在的,且与整库生成同名的表,再重新自动创建表。
设置同步方式和调度配置与上游依赖。
参数
描述
同步方式设置
选择同步方式。同步方式设置包括每日全量和每日增量。
每日全量:系统将会每日全量同步迁移源数据。
每日增量:设置每日增量需设置日期字段,用于系统标识数据变更时间的唯一字段,同步时,系统将会抽取时间为业务日期范围内的数据。
调度配置
选择调度配置。调度配置包括同时调度和分批调度。
同时调度:指每日零点同时执行源库所选择表的同步任务。
分批调度:指将源库所选择的表按批次的方式逐批执行同步任务。
上游依赖
单击添加依赖对象,可在添加物理任务对话框中勾选该节点的上游依赖。如不配置,则默认配置租户的虚拟根节点作为上游依赖,您也可手动添加一个虚拟节点作为该节点的依赖对象。适用于需统一补数据等场景。
完成参数的配置后,单击生成管道,完成离线整库迁移管道的创建。
在运行结果区域,可查看管道任务生成的运行状态。
管道生成后,在离线管道任务目录列表整库迁移任务下将生成对应的离线管道。您可按照下图操作指引,对生成的离线管道任务进行提交或配置等操作。详情请参见通过离线单条管道配置集成任务。
如果项目空间的模式为Dev-Prod,则需要发布生成的离线管道任务至生产环境。具体操作,请参见管理发布任务。
后续步骤
您可在运维中心查看并运维集成任务,保证任务的正常运行。更多信息,请参见运维中心概述。