如何配置同步解决方案任务_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心

完成数据源、网络、资源的准备配置后，您可以根据同步场景选择不同的同步类型，创建并执行同步任务，将源端数据同步至目标端。本文为您介绍同步任务的通用配置流程，不同的数据源及同步类型配置，其流程可能存在差异，具体配置细节，请以界面文案提示为准。

前提条件

已完成数据源配置。您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。同步任务支持的数据源及其配置详情请参见支持的数据源及同步方案。
说明
数据源相关能力介绍详情请参见：数据源概述。
已完成数据源环境准备。您可以基于您需要进行的同步配置，在同步任务执行前，授予数据源配置的账号在数据库进行相应操作的权限。详情请参见：数据库环境准备概述。
已购买合适规格的独享资源组并与工作空间绑定。详情请参见：使用Serverless资源组、新增和使用独享数据集成资源组。
资源组与数据源网络已打通。详情请参见：网络连通方案。

背景信息

数据集成基于源端数据库与目标端数据库类型为您提供丰富的数据同步任务，同步类型包括：整库离线同步（一次性全量同步、周期性全量同步、离线全增量同步、一次性增量同步、周期性增量同步）、实时同步（一次性全量同步，实时增量同步）。不同源端与目标端数据库支持的同步类型不同，具体支持的同步类型详情请参考产品界面。更多同步任务产品能力介绍，详情请参见：数据集成侧同步任务能力说明。

使用限制

同步任务暂不支持跨时区同步数据。如果同步任务中读取和写入的数据源与使用的DataWorks资源组不在同一个时区，将会导致时间类型字段同步错误。
整库离线同步仅支持同步数据源指定的默认库。
数据同步不支持重命名列。

注意事项

DataWorks实时同步通常在以下情况下需要手动设置位点：

同步任务中断后恢复：如果同步任务中断，重启任务时需要手动设置位点为中断的时间点，以确保从断点继续同步。
数据丢失或异常：如果在同步过程中发现数据丢失或异常，需要手动重置位点到数据写入之前的某个时间点，以确保数据完整。
调整任务配置：在调整任务配置后，例如修改目标表或字段映射，需要手动设置位点以确保数据同步的准确性。

如果您在执行同步任务时提示位点错误或不存在，请按如下方式解决：

重置位点：在启动实时同步任务时，重置位点并选择源库可用的最早位点。
调整日志保留时间：如果数据库位点过期，可以考虑在数据库中调整日志的保留时间，例如设置为7天。
数据同步：如果数据已经丢失，可以考虑重新全量同步，或者配置一个离线同步任务来手动同步丢失的数据。

进入同步任务

同步任务的创建入口在数据集成模块，您需要前往数据集成模块页面进行创建。

登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据集成 > 数据集成，在下拉框中选择对应工作空间后单击进入数据集成。

步骤一：创建同步任务

您可以通过以下两种方式创建同步任务：

方式一：在同步任务页面，选择来源和去向，单击新建同步任务。
方式二：在同步任务页面，如果任务列表为空，单击请创建。

步骤二：选择同步类型

您可以根据业务需要选择要同步的来源和去向数据源类型。选择后，数据集成基于源端数据库与目标端数据库类型为您展示目前支持的同步类型，您可以根据业务需要进行选择。

说明

支持的数据源及同步方案请参见：支持的数据源及同步方案。

步骤三：网络与资源配置

在此步骤中，您需要选择要执行同步任务的资源组以及同步的来源数据源与去向数据源。并测试资源组与数据源的网络连通。

说明

若还未创建数据源，请单击界面的新增数据源按钮，新建数据源。详情请参见：数据源概述。
Serverless资源组支持为同步任务指定运行CU上限，如果您的同步任务因资源不足出现OOM现象，请适当调整资源组的CU占用取值。
如果已创建资源组，但此处不展示资源组时，请确认资源组是否已绑定至工作空间。详情请参见：使用Serverless资源组、新增和使用独享数据集成资源组。

步骤四：同步任务配置

单击下一步，然后根据具体任务类型按界面说明进行相关配置。

步骤五：启动同步任务

您可以执行任务并查看任务详细执行过程。

进入数据集成 > 同步任务页面，在任务列表区域找到已创建的同步方案。
单击操作列的启动按钮，启动同步任务。
单击执行概览列的同步信息，查看任务的详细执行过程。

附录：高级配置

设置同步来源与规则

选择源端数据源中需要同步的库和表后，同步任务默认将源端数据库、数据表写入目标端同名schema或同名表中，如果目标端不存在该schema或表，将会自动创建。同时，您可以通过目标Schema名映射自定义、目标表名映射自定义定义最终写入目标端的schema或表名称。实现将多张表数据写入到同一个表中，或统一将源端某固定前缀的库名或表名在写入目标库或表时更新为其他前缀。

说明

在自定义目标Schema、目标表名时，请遵循命名格式规范，避免使用.（点号），以防系统无法正确识别和解析。

目标Schema名映射自定义

源端数据库名字符串替换：源端数据库名或Schema名支持通过正则表达式转换为目标端最终写入的Schema名。
示例：将源端doc_前缀的库名替换为pre_前缀。
目标Schema名生成规则：支持使用内置变量和字符串拼接生成最终目标Schema名。
示例：对上一步源端数据库名和目标Schema名转换规则转换后的Schema名做进一步字符串拼接处理，使用源端数据库名代表上一步的处理结果，再为该内置变量增加后缀，例如，源端数据库名_d。

目标表名映射自定义

源端表名字符串替换：源端表名支持通过正则表达式转换为目标端最终写入的表名。
- 示例1：将源端doc_前缀的表数据，写入前缀为pre_的目标表中。
- 示例2：将多张表数据写入到一张目标表。
  将源端名称为table_01、table_02和table_03的表同步至一张名为my_table的表中。配置正则表名转换规则为：源：table_*，目标：my_table。
目标表名生成规则：支持使用内置变量和字符串拼接生成最终目标表名。
您可以在编辑内置变量的源端数据源名、源端数据库名或源端表名页签设置源于目标的字符串替换规则，然后在目标表名中直接使用对应内置变量。
示例：对上一步源表名和目标表名转换规则转换后的表名做进一步字符串拼接处理，使用源端表名代表上一步的处理结果my_table，再为该内置变量增加前缀和后缀，例如，pre_源端表名_post，最终就映射到了名为pre_my_table_post的目标表。

设置目标表

您可以定义写入目标表的相关属性，例如，选择写入目标端已有表还是新建表、目标表的描述、字段、分区字段以及生命周期等。

说明

此步骤中，单击应用并刷新映射按钮后，将根据配置的表规则来映射源端表与目标端表的写入关系。
此处的配置项根据目标端数据源类型的不同而存在一定的差异，具体以各方案实际配置界面为准。详情请参见：支持的数据源及同步方案。

设置写入规则

此步骤根据选择的同步方案类型不同，需要进行的配置存在一定差异：

DDL消息处理规则（实时同步任务）：
对于关系型数据的实时同步，其原始实时信息会包含DDL操作，此处可以在右上角单击DDL能力配置，设置针对这些DDL消息同步到目标表时的操作。不同数据源支持的DDL操作可能存在差异，详情请参见：支持的DML及DDL操作。您也可以在数据集成 > 配置选项 > 实时同步DDL消息处理策略页面，针对每个写入的目标数据库类型，设置默认的DDL处理策略。
同步规则设置（整库离线同步）：
当使用整库离线同步时，需要定义同步策略。例如，增量同步的过滤条件设置、同步任务的调度周期设置等。
- 增量条件：您可通过WHERE语句对待同步的数据表进行过滤，且只需在增量条件框中填写WHERE子句，无需写WHERE关键字。同时，在写WHERE子句时，您可以使用系统内置变量，例如使用${bdp.system.bizdate}指代业务日期、使用${bdp.system.cyctime}指代定时时间等。
  说明
  您可以使用调度参数来指定同步源表及目标表的数据范围，调度参数使用说明请参见：数据集成使用调度参数的相关说明。
- 周期配置：由于需要进行周期性调度，所以需要定义周期性调度任务时的相关属性，包括调度周期、生效日期、暂停调度等。当前方案的调度配置与DataWorks中节点的调度配置一致，参数详情可参见时间属性配置说明。

设置任务运行资源及参数配置

在此步骤中，您可以

在右上角单击资源组配置，配置任务执行所使用的资源组。
说明
DataWorks的离线同步任务通过调度资源组将其下发到数据集成任务执行资源组上执行，所以离线同步任务除了涉及数据集成任务执行资源组外，还会占用调度资源组资源。
- 如果使用Serverless资源组，则无需关注，数据集成与调度均由Serverless资源组管理，
- 如果使用独享调度资源组，将会产生调度实例费用。
您可通过DataWorks资源组概述了解该机制。
在右上角单击高级参数配置，配置数据库最大连接数、并发数等参数值。
说明
不同数据源的参数不同，请以实际界面展示为准。

后续步骤

完成任务配置后，您可以对已创建的任务进行管理、执行加减表操作，或对任务配置监控报警，并查看任务运行的关键指标等。详情请参见：全增量同步任务运维。