在DataStudio配置单表与整库实时同步任务-大数据开发治理平台 DataWorks-阿里云

完成数据源、网络、资源的准备配置后，您可创建实时同步任务，将多种输入及输出数据源搭配组成同步链路，进行单表或整库数据的实时增量同步。本文为您介绍如何创建单表或整库增量数据实时同步任务，并在创建完成后查看任务运行情况。

准备工作

已完成数据源配置。您需要在数据集成同步任务配置前，配置需要同步的源端和目标端数据库，以便在同步任务配置过程中，可通过选择数据源名称来控制同步任务的读取和写入数据库。实时同步支持的数据源及其配置详情请参见支持的数据源及同步方案。
已购买合适规格的资源组并与工作空间绑定。详情请参见：使用Serverless资源组、使用独享数据集成资源组。
资源组与数据源网络已打通。详情请参见：网络连通配置。

进入数据开发

说明

部分通道的单表实时同步任务配置入口在数据开发模块，您需要前往数据开发进行创建。通道支持情况详情查看：支持的数据源。

登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据开发与运维 > 数据开发，在下拉框中选择对应工作空间后单击进入数据开发。

步骤一：创建实时同步任务

新版数据开发

创建工作流。详情请参见：工作流编排。
创建实时同步节点。可以通过以下两种方式创建实时同步节点：
- 方式一：单击工作流列表右上方的，选择新建节点 > 数据集成 > 实时同步。
- 方式二：双击工作流名称，将工作流画布左侧的节点列表数据集成目录下的实时同步节点直接拖拽至右侧业务流程编辑面板。
在新建节点的弹窗中配置节点参数，单击确认，完成新建。

旧版数据开发

创建业务流程。详情请参见：创建业务流程。
创建实时同步任务。你可以通过以下两种方式创建实时同步任务。
- 方式一：展开业务流程，右键单击数据集成 > 新建节点 > 实时同步。
  方式二：双击业务流程名称，单击新建节点，然后将数据集成目录下的实时同步节点直接拖拽至右侧业务流程编辑面板。
在新建节点对话框中，配置各项参数。

参数	描述
节点类型	默认为实时同步。
同步方式	实时同步单表增量数据时，同步方式选择单表（Topic）到单表（Topic）ETL，用于实时同步单个或多个表数据至目标单表。说明单表实时同步仅支持同步数据至目标单表，如果您需要同步数据至多个表，您可以采用以下方案：如果您需要对同步过程中的数据进行过滤、字符串替换或数据脱敏，您可以创建多个单表数据实时同步任务。如果您需要先同步全量数据再将增量数据实时同步至目标端，您可选择数据集成侧的整库实时同步任务。详情请参见：整库实时同步任务配置。实时同步整库增量数据时，同步方式选择数据库变更数据同步（例如，数据库变更数据同步到MaxCompute）。
路径	存放实时同步任务的目录。
名称	节点名称必须是大小写字母、中文、数字、下划线（_）以及英文句号（.），且不能超过128个字符。

步骤二：配置资源组

实时同步任务仅支持使用Serverless资源组或独享数据集成资源组，您可以在实时同步任务编辑页面的右侧导航栏，单击基本配置。在资源组下拉框选择已经与数据库网络连通的资源组。

说明

如果已创建资源组，但此处不展示资源组时，请确认资源组是否已绑定至工作空间。详情请参见：使用Serverless资源组、使用独享数据集成资源组。
建议实时同步任务与离线同步任务运行在不同的资源组上，避免混跑带来资源互相抢占、运行态互相影响等问题，例如，CPU、内存、网络等互相影响，导致离线同步任务突然变慢、实时同步任务延迟、以及在资源不足的极端情况下可能会出现任务被OOM Killer杀掉等问题。
Serverless资源组支持为同步任务指定运行CU上限，如果您的同步任务因资源不足出现OOM现象，请适当调整资源组的CU占用取值。

步骤三：配置实时同步任务

配置单表实时同步任务

配置输入数据源。
目前，同步单表数据支持的输入数据源类型及其配置如下：
1. 在实时同步任务编辑页面左侧的输入区域，拖拽目标输入数据源组件至右侧面板。
2. 单击输入组件，在右侧的节点配置对话框配置相关信息。
可选：配置数据转换方式。
在实时同步数据的过程中，如果您希望将输入的数据转换为需要使用的格式进行输出，则可以配置数据转换方式。
目前，同步单表数据支持的转换方式如下：
- 配置数据过滤转换：您可以对数据进行规则过滤，例如过滤字段的大小等，符合规则的数据才会被保留。
- 配置字符串替换：您可以对字符串类型的字段进行替换。
- 配置数据脱敏：您可以对实时同步的单表数据进行脱敏，然后存储到指定的数据库位置。
1. 在实时同步任务编辑页面左侧的转换区域，拖拽需要使用的数据转换方式组件至右侧面板。将鼠标悬停置上文的输入组件，使组件展示上下两个连接点，将输出组件的下方连接点和转换组件的上方连接点相连。连接后方可对转换组件进行节点配置。
2. 单击转换组件，在右侧的节点配置对话框配置相关信息。
配置输出数据源。
目前，同步单表数据支持的输出数据源类型及其配置如下：
1. 在实时同步任务编辑页面左侧的输出区域，拖拽目标输出数据源组件至右侧面板。将输出组件与上游组件相连。
2. 单击输出组件，在右侧的节点配置对话框配置相关信息。
单击画布上方的工具栏中的保存，完成任务配置。

配置整库实时同步任务

说明

DataWorks更推荐使用数据集成侧的整库实时同步任务。

设置同步来源和规则。
1. 在数据来源区域，选择要同步的数据源类型和数据源名称等信息。
2. 选择要同步的表。
  在选择同步的源表区域，为您展示所选数据源下所有的表，您可以在源端库表区域选中需要同步的整库全表或部分表，并单击图标，将其移动至已选库表。
  重要
  如果选中的表没有主键，将无法进行实时同步。
3. 设置表名的映射规则。
  在此步骤中，您可以选择源端数据源中需要同步的库和表，同步解决方案默认将源端数据库、数据表写入目标端同名schema或同名表中，如果目标端不存在该schema或表，将会自动创建。同时，您可以通过设置表（库）名的映射规则定义最终写入目标端的schema或表名称。实现将多张表数据写入到同一个表中，或统一将源端某固定前缀的库名或表名在写入目标库或表时更新为其他前缀。
  - 源表名和目标表名转换规则：源端表名支持通过正则表达式转换为目标端最终写入的表名。
    - 示例1：将源端doc_前缀的表数据，写入前缀为pre_的目标表中。
    - 示例2：将多张表数据写入到一张目标表。
      将源端名称为 "table_01"，"table_02"，"table_03" 的表同步至一张名为 "my_table" 的表中。配置正则表名转换规则为：源：table.*，目标：my_table。
  - 目标表名规则：支持您使用内置的变量组合生成目标表名，同时，对转换后的目标表名支持添加前缀和后缀。可使用的内置变量有：
    - ${db_table_name_src_transed}：“源表名和目标表名转换规则”中的转换完成之后的表名。
    - ${db_name_src_transed}：“源库名和目标Schema名转换规则”中的转换完成之后的目标Schema名。
    - ${ds_name_src}：源数据源名。
    示例：对上一步源表名和目标表名转换规则转换后的表名做进一步字符串拼接处理，使用${db_table_name_src_transed}代表上一步的处理结果“my_table”，再为该内置变量增加前缀和后缀，例如，pre_${db_table_name_src_transed}_post，最终就映射到了名为“pre_my_table_post”的目标表。
  - 源库名和目标Schema名转换规则：源端schema名支持通过正则表达式转换为目标端最终写入的schema名。
    示例：将源端doc_前缀的库名替换为pre_前缀。
选择目标数据源并配置目标表或topic。
1. 在设置目标表或Topic页面，配置目标数据源基本信息。例如，写入模式、分区设置等。具体配置以各数据源实时同步界面为准。
2. 单击刷新源表和目标表映射，创建需要同步的源表和目标表的映射关系。
  支持您自定义目标schema、自定义目标表名、通过编辑附加字段为目标表添加常量，变量等操作。具体配置以各数据源实时同步界面为准。
  说明
  如果同步的表数量较多，会导致执行进度较慢，请耐心等待。
可选：设置表粒度同步规则。
部分同步方案支持自定义表级DML处理策略，即当源表发生插入、更新、删除时，您可以在此处定义对应的处理策略。
说明
不同数据源支持的DML操作可能存在差异，具体同步方案是否支持DML处理策略，请以产品界面为准。数据源当前的DML支持情况请参见支持的DML及DDL操作。

设置DDL消息处理规则。

来源数据源会包含许多DDL操作，进行实时同步时，您可以根据业务需求，对不同的DDL消息设置同步至目标端的处理策略。不同数据源支持的DDL操作可能存在差异，详情请参见：支持的DML及DDL操作。您可以在数据集成 > 配置选项 > 实时同步DDL消息处理策略页面，针对每个写入的目标数据库类型，设置DDL处理策略。不同DDL消息处理策略如下表所示。

DDL消息类型	处理策略
新建表	DataWorks收到对应类型的DDL消息时，处理策略如下：正常处理：将相应消息继续下发给目标数据源，由目标数据源来处理。因为不同目标数据源对DDL消息处理策略可能会不同，因此DataWorks只执行转发操作。忽略：直接丢弃该消息，不再向目标数据源发送。告警：直接丢弃该消息，同时会在实时同步日志中记录告警信息，指明该消息因执行出错被丢弃。出错：实时同步任务直接显示出错状态并终止运行。
删除表
新增列
删除列
重命名表
重命名列
修改列类型
清空表

运行资源设置。
- 提供任务并发数控制功能来限制数据集成读取和写入数据库的最大并发数。
- 支持您控制同步任务是否容忍脏数据的产生。
  - 当不允许脏数据产生时，同步任务执行过程中如果产生脏数据，任务将失败退出。
  - 当允许脏数据时：同步任务将忽略脏数据（即不会写入目标端），并正常执行。
单击完成配置。

步骤四：提交并发布实时同步任务

单击工具栏中的图标，提交节点任务。
在提交新版本对话框中，输入变更描述。
单击确定。
如果您使用的是标准模式的工作空间，任务提交成功后，需要将任务发布至生产环境进行发布。请单击顶部菜单栏左侧的任务发布。具体操作请参见发布任务。

步骤五：运行实时同步任务

说明

数据开发侧无法直接运行实时同步任务，您需要将任务发布至运维中心后，在运维中心启动并查看任务的运行情况。

任务配置完成后，您可以在运维中心 > 实时任务运维 > 实时同步任务面板启动并管理该任务，详情请参见：实时同步任务运维。

后续步骤

任务启动后，您可以点击任务名称，查看运行详情，进行任务运维和调优。

常见问题

实时同步任务常见问题请参见实时同步常见问题。

附录：任务迁移

在DataStudio页面已配置好的单表实时集成任务可以通过迁移至主站将该任务迁移至数据集成页面。

说明

目前仅支持的实时集成任务：

Kafka至MaxCompute单表实时集成任务。
Kafka至Hologres单表实时集成任务。

双击需要迁移的单表实时集成任务，进入任务编辑页面，单击迁移至主站即可对任务进行迁移。
单击左上角选择进入全部产品 > 数据集成，查看同步任务页面，可在任务列表内查看迁移成功的单表实时集成任务。

说明

迁移至主站在数据集成主站即可直接运维，无需跳转至运维中心，在运维中心中，此任务将不可见。迁移不影响已经保存的任务配置，和正在运行中的任务。
迁移后，原任务将会移至数据开发回收站，此后的编辑和运维动作都将只能在数据集成主站任务列表页面进行操作。