文档

通过整库迁移配置集成任务

更新时间:

离线整库迁移可用于将本地数据中心或在ECS上自建的数据库同步数据至大数据计算服务,MaxCompute等数据源。本文为您介绍如何新建并配置整库迁移任务。

功能介绍

离线整库迁移是一个提升用户效率、降低用户使用成本的一种快捷工具。相对于离线单条管道,离线整库迁移可以批量配置离线管道,一次性完成数据库内多张数据表的同步文件的配置。

整库迁移支持的数据源

整库迁移支持MySQL、Microsoft SQL Server、Oracle、OceanBase等来源端的数据迁移。来源端和目标端迁移支持的数据源类型如下:

数据源类型

数据源

相关文档

来源端数据源类型

MySQL、Oracle、Microsoft SQL Server、OceanBase、IBM DB2、MaxCompute、FTP。

目标端数据源类型

MaxCompute、AnalyticDB for PostgreSQL。

前提条件

已完成所需迁移的数据源创建。数据源创建请参见整库迁移支持的数据源

操作步骤

  1. 请参见数据集成入口,进行数据集成页面。

  2. 按照下图操作指引,进入新建整库迁移页面。

    image..png

  3. 新建整库迁移页面,配置参数。

    1. 配置基本信息。

      参数

      描述

      整库迁移文件夹名称

      允许最长字符256个,不支持以下特殊字符:|\/:?<>*"

    2. 配置数据源信息。

      参数

      描述

      同步来源

      数据源类型

      选择同步来源的数据源类型。Dataphin支持的同步来源数据源类型包括MySQL、Oracle、Microsoft SQL Server、OceanBase、IBM DB2、MaxCompute、FTP。数据源创建,请参见整库迁移支持的数据源

      数据源

      选择来源数据源。若无所需数据源,您也可以单击新建数据源进行创建。

      编码方式

      若选择Oracle数据源,需选择Oracle的编码方式。支持UTF-8、GBK、ISO-8859-1。

      同步目标

      数据源类型

      选择目标数据源类型。支持选择MaxCompute、AnalyticDB for PostgreSQL。

      说明
      • 同步至AnalyticDB for PostgreSQL数据源,系统每日会为目标表创建一个日期分区。

      • 若有其他分区需要,可以在生成管道后,单击单条管道修改分区相关的准备语句

      数据源

      选择目标数据源。Dataphin支持的同步目标数据源类型包括MaxCompute、AnalyticDB for PostgreSQL、ArgoDB。若无所需数据源,您也可以单击新建数据源进行创建。数据源创建,请参见整库迁移支持的数据源

      加载策略

      • MaxCompute、Oracle目标数据源支持覆盖数据追加数据

        • 覆盖数据:如果同步的数据存在,已存在数据将进行覆盖同步。

        • 追加数据:如果同步的数据存在,不进行覆盖,新增数据进行追加同步。

      • AnalyticDB for PostgreSQL支持insertcopy。

        • insert:数据逐条同步。适用于数据量较小的情况,可以提高同步数据的准确性和完整性。

        • copy:数据通过文件形式同步。适用于数据量较大的情况,可以提高同步速度。

      冲突解决策略

      支持冲突时报错冲突时覆盖

      重要

      冲突解决策略仅在PostgreSQL内核版本高于4.3时的Copy模式下有效,内核低于4.3或不明版本时请谨慎选择,避免造成任务失败。

    3. 配置数据同步。

      • 同步来源为MySQL、Oracle、Microsoft SQL Server、OceanBase、IBM DB2、MaxCompute。

        勾选来源表后,将生成对应的目标表,名称默认与来源表名一致。若有名称转换配置,则为转换后的名称。

        image..png

        参数

        描述

        操作区

        • 搜索来源表:支持通过表名称搜索当前来源表。大小写敏感。

        • 校验表名:校验目标数据库中是否存在当前的目标表名。

        • 自动删除数据源中同名表:选中后Dataphin会先自动删除数据源中已经存在的,且与整库生成同名的表,再重新自动创建表。

          重要

          如为项目数据源,则会同时删除生产与开发环境中的同名表,请谨慎操作。

        • 名称转化配置:非必选,名称转换配置可将您来源表的表名、字段名进行替换或过滤数据后进行同步。

          1. 单击名称转换配置

          2. 名称转换配置页面,配置转换规则。

            image..png

            • 表名转换规则:单击新增规则,在规则项中填写来源表待替换字符串目标表替换字符串。如:需将表名datawork替换为dataphin,则待替换字符串为work,替换字符串为phin

            • 表名前缀表名前缀输入框中填写目标库表的表名前缀。同步时将自动生成目标库表的前缀,如:表名前缀填写pre_,表名为dataphin,则生成的目标库表名为pre_dataphin

            • 表名后缀表后前缀输入框中填写目标库表的表名后缀。同步时将自动生成目标库表的后缀,如:表名后缀填写_prod,表名为dataphin,则生成的目标库表名为pre_dataphin_prod

            • 字段名称规则:单击新增规则,在规则项中填写来源字段替换字符串目标字段替换字符串。如:需将字段名datawork替换为dataphin,则待替换字符为work,替换的字符为phin

          3. 配置完成后单击保存并执行对应目标库表将展示转换后的目标库表名。

            说明

            替换字符及表名前后缀中的英文字符将自动转换为小写。

        来源表

        勾选所需同步的来源表。

        对应目标库表

        选择来源表后,生成对应目标库表,名称默认与源表名一致。若有名称转换配置,则为转换后的名称。

        说明

        目标表名仅支持英文字母、数字及下划线。如来源表名含有其他字符,请配置表名转换规则。

        管道统计

        当前已选择的管道数。

      • 同步来源为FTP。

        1. 请先单击下载Excel模板并按照模板指引填写模板后上传模板文件。请严格按照模板文件的格式填写,否则会导致文件解析失败。

          说明

          可上传单个.xlsx文件,或单个包含一个或多个.xlsx文件的压缩包,压缩格式仅支持zip类型。文件需小于50M。

        2. 单击解析文件

          image.png

          参数

          描述

          操作区

          • 搜索来源文件:支持通过文件名称搜索当前来源文件。

          • 仅查看解析失败任务:列表将仅展示解析失败的任务。

          • 自动删除数据源中同名表:选中后会先自动删除数据源中已存在的与整库生成的目标表同名的表,再重新自动创建。

            重要

            如为项目数据源,则会同时删除生产与开发环境中的同名表,请谨慎操作。

          • 校验表名:校验目标数据库中是否存在当前的目标表名。

          来源文件

          勾选所需同步的来源文件。

          对应目标库表

          解析文件后,将根据模板文件生成对应目标库表。

          管道统计

          当前已选择的管道数。

    4. 设置同步方式和数据过滤。

      参数

      描述

      同步方式设置

      选择同步方式。同步方式设置包括每日同步单次同步每日同步+单次同步

      每日同步系统将生成每日调度的集成管道周期任务,通常用于同步每日的增量或全量数据。

      单次同步系统将生成集成管道手动任务,通常用于同步历史全量数据。

      每日同步+单次同步:系统将同时生成每日调度的周期任务和手动任务,通常用于单次全量后每日增量或全量的数据同步场景。

      说明

      来源库为FTP时,不支持每日同步+单次同步

      数据过滤

      • 来源库非MaxCompute

        image..png

        每日同步时的过滤条件:如配置了ds=${bizdate},任务运行时会抽取来源库中 ds=${bizdate}的所有数据写入指定的目标表分区。

      • 来源库为MaxCompute

        image.png

        • 每日同步分区:来源库为MaxCompute时,必须在此指定分区表每日读取的分区。支持读取单分区,可填写ds=${bizdate};或多分区,如填写/*query*/ds>=20230101 and ds<=20230107

          分区不存在时:来源库为MaxCompute时,可选择以下策略处理当指定分区不存在时的场景:

          • 置任务失败:终止该任务并置失败。

          • 置任务成功:任务正常运行成功,无写入的数据。

          • 使用最新非空分区:使用该表当前的最新非空分区(max_pt)作为需同步的分区,如该表不存在任何有数据的分区,则任务报错并置失败。

      说明

      来源库为FTP时,不支持数据过滤配置。

      参数配置

      来源库为FTP时,支持在来源文件路径中使用参数。

    5. 调度运行配置

      参数

      描述

      调度配置

      选择调度配置。调度配置包括同时调度分批调度

      同时调度:指每日零点同时执行源库所选择表的同步任务。

      分批调度:指将源库所选择的表按批次的方式逐批执行同步任务。

      运行配置

      同步任务运行时,若单次运行总时长超过设置阈值仍未完成,会自动终止并置为失败。支持选择系统配置自定义

      • 系统配置:使用系统默认配置的超时时间。更多信息,请参见运行配置

      • 自定义:自定义超时时间。支持输入0-168之间的数字(不包括0),保留2位小数。

      失败自动重跑

      该任务实例、补数据实例运行失败,会按照配置决定是否自动重跑。重跑次数支持输入[0,10]之间的整数,重跑间隔支持输入[1,60]之间的整数。

      上游依赖

      单击添加依赖,可添加物理节点逻辑表节点作为该节点的上游依赖。如不配置,则默认配置租户的虚拟根节点作为上游依赖,您也可手动添加一个虚拟节点作为该节点的依赖对象。适用于需统一补数据等场景。

  4. 完成参数的配置后,单击生成管道,完成离线整库迁移管道的创建。

    运行结果区域,可查看管道任务的运行结果,包括来源表、目标表、同步方式、任务状态及备注信息。image.png

  5. 管道生成后,在离线管道任务目录列表整库迁移任务下将生成对应的离线管道。您可按照下图操作指引,对生成的离线管道任务进行配置后发布等操作。详情请参见离线集成任务属性配置概述

    image..png

后续步骤

您可在运维中心查看并运维集成任务,保证任务的正常运行。更多信息,请参见运维中心概述

  • 本页导读 (0)
文档反馈