配置DataWorks实现MySQL整库实时同步至Kafka-大数据开发治理平台 DataWorks-阿里云

数据集成目前支持将MySQL、Oracle、PolarDB等源头的数据整库实时同步至Hologres。本文以MySQL为源端、Kafka为目标端场景为例，为您介绍如何将MySQL整个数据库的数据全量+增量同步至Kafka。

前提条件

已购买Serverless资源组或独享数据集成资源组。
已创建MySQL数据源和Kafka数据源，详情请参见创建数据集成数据源。
已完成资源组与数据源间的网络连通，详情请参见网络连通方案。

操作步骤

一、选择同步任务类型

进入数据集成页面。
登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据集成 > 数据集成，在下拉框中选择对应工作空间后单击进入数据集成。
在左侧导航栏单击同步任务，然后在页面顶部单击新建同步任务，进入同步任务的创建页面，配置如下基本信息。
- 数据来源和去向：MySQL→Kafka
- 新任务名称：自定义同步任务名称。
- 同步类型：整库实时。
- 同步步骤：选中全量同步和增量同步。

二、网络与资源配置

在网络与资源配置区域，选择同步任务所使用的资源组。您可以为该任务分配任务资源占用CU数。
来源数据源选择已添加的MySQL数据源，去向数据源选择已添加的Kafka数据源后，单击测试连通性。
确保来源数据源与去向数据源均连通成功后，单击下一步。

三、选择要同步的库表

此步骤中，您可以在源端库表区域选择源端数据源下需要同步的表，并单击图标，将其移动至右侧已选库表。

四、目标表映射

在上一步骤选择完需要同步的表后，将自动在此界面展示当前待同步的表，但目标表的相关属性默认为待刷新映射状态，需要您定义并确认源表与目标表映射关系，即数据的读取与写入关系，然后单击刷新映射后才可进入下一步操作。您可以直接刷新映射，或自定义目标表规则后，再刷新映射。

说明

您可以选中待同步表后，单击批量刷新映射，未配置映射规则时，默认表名规则为${源端库名}_${表名}，若目标端不存在同名表时，将自动新建。
您可以在目标Topic名映射自定义列，单击配置按钮，自定义目标Topic名规则。
可以使用内置变量和手动输入的字符串拼接成为最终目标Topic名。其中，支持您编辑内置变量，例如，新建一个Topic名规则，将源表名增加后缀作为目标Topic名。
您可以单击写入键取值列的配置按钮，设置写入键。

1. 编辑字段类型映射

同步任务存在默认的源端字段类型与目标端字段类型映射，您可以单击表格右上角的编辑字段类型映射，自定义源端表与目标端表字段类型映射关系，配置完后单击应用并刷新映射。

2. 为目标Topic添加字段并赋值

当目标Topic为待建立状态时，您可以为目标Topic在原有表结构基础上新增字段。操作如下：

单表添加字段并赋值：单击目标Topic字段赋值列的配置按钮，在附加字段页面，单击新增字段，为目标Topic添加字段并赋值。
批量赋值：选择多个表，在列表底部选择批量修改 > 目标Topic字段赋值为目标表中相同的字段批量赋值。
说明
在赋值时支持赋值常量与变量，您可通过图标切换赋值模式。

3. 配置DML规则

数据集成提供默认DML处理规则，同时，您可以根据业务需要在此界面对写入目标表的DML命令定义处理规则。

单表定义规则：单击表格DML规则配置列的配置，对目标表单独定义DML规则。
批量定义规则：选中待同步的所有表，在列表底部选择批量修改 > DML规则配置。

4. 设置目标Topic属性

您可以单击目标Topic名列的，设置Topic属性，支持设置Topic分区数和副本数。

5. 设置源端切分列

您可以在源端切分列中下拉选择源端表中的字段或选择不切分。

6. 是否执行全量同步

如果在选择同步任务类型时，同步步骤勾选了全量同步，您还可以在此处对指定表关闭全量同步。

五、报警配置

为避免任务出错导致业务数据同步延迟，您可以对同步任务设置报警策略。

单击页面右上方的报警配置，进入实时子任务报警设置页面。
单击新增报警，配置报警规则。
说明
此处定义的报警规则，将对该任务产生的实时同步子任务生效，您可在任务配置完成后，进入实时同步任务运行与管理界面查看并修改该实时同步子任务的监控报警规则。
管理报警规则。
对于已创建的报警规则，您可以通过报警开关控制报警规则是否开启，同时，您可以根据报警级别将报警发送给不同的人员。

六、高级参数配置

同步任务提供部分参数可供修改，您可以按需对该参数值进行修改，例如通过最大连接数上限限制，避免当前同步方案对数据库造成过大的压力从而影响生产。

说明

请在完全了解对应参数含义的情况下再进行修改，以免产生不可预料的错误或者数据质量问题。

单击界面右上方的高级参数配置，进入高级参数配置页面。
在高级参数配置页面修改相关参数值。

七、DDL能力配置

来源数据源会包含许多DDL操作，您可以根据业务需求，在界面右上方单击DDL能力配置，进入DDL能力配置页面，对不同的DDL消息设置同步至目标端的处理策略。

说明

不同DDL消息处理策略请参见：DDL消息处理规则。

八、资源组配置

您可以单击界面右上方的资源组配置，查看并切换当前的任务所使用的资源组。

九、执行同步任务

完成所有配置后，单击页面底部的完成配置。
在数据集成 > 同步任务界面，找到已创建的同步任务，单击操作列的启动。
单击任务列表中对应任务的名称/ID，查看任务的详细执行过程。

同步任务运维

查看任务运行状态

创建完成同步任务后，您可以在同步任务页面查看当前已创建的同步任务列表及各个同步任务的基本信息。

您可以在操作列启动或停止同步任务，在更多中可以对同步任务进行编辑、查看等操作。
已启动的任务您可以在执行概况中看到任务运行的基本情况，也可以单击对应的概况区域查看执行详情。
MySQL到Kafka的整库实时同步任务分为三个步骤：
- 结构迁移：包含目标表的创建方式（已有表/自动建表），如果是自动建表，会展示DDL语句。
- 全量初始化：包含离线同步的表信息、同步的进度、以及写入的条数。
- 实时数据同步：包含实时同步的统计信息（实时的进度、DDL记录、DML记录和报警信息）。

任务重跑

在某些特殊情况下，如果您需要增减表、修改目标表Schema信息或者表名信息时，您还可以单击同步任务操作列的重跑，系统会将新增的表或有变更的表进行同步，之前同步过的表或者未修改的表将不会再进行同步。

不修改任务配置，直接单击重跑操作，重新运行全量初始化+实时同步。
编辑任务，进行增减表操作，单击完成配置。这个时候任务的操作列会显示应用更新，单击应用更新会直接触发修改后的任务重跑。新增的表才会进行同步，之前同步过的表不会再同步。

附录：写入Kafka消息格式定义

完成配置实时同步任务的操作后，执行同步任务会将源端数据库读取的数据，以JSON格式写入到Kafka topic中。除了会将设置的源端表中已有数据全部写入Kafka对应Topic中，还会启动实时同步将增量数据持续写入Kafka对应Topic中，同时源端表增量DDL变更信息也会以JSON格式写入Kafka对应Topic中。您可以通过附录：消息格式获取写入Kafka的消息的状态及变更等信息。

说明

通过离线同步任务写入Kafka的数据JSON结构中的payload.sequenceId、payload.timestamp.eventTime和payload.timestamp.checkpointTime字段均设置为-1。