使用DataWorks数据集成将Kafka单表实时同步至Hologres-大数据开发治理平台 DataWorks-阿里云

数据集成目前支持将DataHub、Hologres、Kafka、LogHub等源头的数据单表实时同步至Hologres。单表实时同步任务根据来源Kafka指定Topic的内容结构对目的Hologres表结构做初始化，然后将Kafka指定Topic的存量数据同步至Hologres，同时也持续将增量数据实时同步至Hologres。本文为您介绍如何将Kafka Topic数据单表实时同步至Hologres。

前提条件

已购买Serverless资源组或独享数据集成资源组。
已创建Kafka数据源和Hologres数据源，详情请参见创建数据集成数据源。
已完成资源组与数据源间的网络连通，详情请参见网络连通方案。

操作步骤

一、选择同步任务类型

进入数据集成页面。
登录DataWorks控制台，切换至目标地域后，单击左侧导航栏的数据集成 > 数据集成，在下拉框中选择对应工作空间后单击进入数据集成。
在左侧导航栏单击同步任务，然后在页面顶部单击新建同步任务，进入同步任务的创建页面，配置如下基本信息。
- 数据来源和去向：Kafka→Hologres
- 新任务名称：自定义同步任务名称。
- 同步类型：单表实时。

二、网络与资源配置

在网络与资源配置区域，选择同步任务所使用的资源组。您可以为该任务分配任务资源占用CU数。
来源数据源选择已添加的kafka数据源，去向数据源选择已添加的Hologres数据源后，单击测试连通性。
确保来源数据源与去向数据源均连通成功后，单击下一步。

三、配置同步链路

1、配置Kafka来源

在页面上方单击数据来源Kafka，编辑Kafka来源信息。

在Kafka来源信息区域，选择Kafka集群中需要同步的Topic。
其他配置可使用任务创建时生成的默认值，也可根据需要进行修改。
单击右上角的数据采样。
在弹出对话框中指定好开始时间和采样条数后，单击开始采集按钮，可以对指定的Kafka Topic进行数据采样，同时您可以预览Topic中的数据，为后续数据处理节点的数据预览和可视化配置提供输入。
在输出字段配置区域，按需勾选同步任务需同步的字段。

2、编辑数据处理节点

单击图标可以增加数据处理方式。目前提供5种数据处理方式（数据脱敏、字符串替换、数据过滤、JSON解析和字段编辑与赋值），您可根据需要做顺序编排，在任务运行时会按照编排的数据处理先后顺序执行数据处理。

每完成一个数据处理节点配置，可以单击右上角的数据输出预览按钮，在弹出对话框中，单击重新获取上游输出，模拟得到Kafka Topic采样数据经过当前数据处理节点处理后的结果。

说明

数据输出预览强依赖Kafka来源的数据采样，在执行数据输出预览前需要先在Kafka来源表单中完成数据采样。

3、配置Hologres去向信息

在页面上方单击数据去向Hologres，编辑Hologres去向信息。

在Hologres去向信息区域，选择要写入的Hologres表所在的Schema，以及目标表是自动建表还是使用已有表。
- 如果是自动建表，默认会创建与数据来源端相同的表名，您可以手动修改目标端表名。
- 如果是使用已有表，请下拉选择需要同步的目标表。
（可选）编辑表结构。
当选择自动建表时，您需要单击编辑表结构按钮，在弹框中编辑目标表结构。同时，支持您单击根据上游节点输出列重新生成表结构按钮，自动根据上游节点输出列，生成表结构。您可以在自动生成的表结构中选择一列配置为主键。
说明
目标表必须有主键，否则无法保存配置。
设置作业类型和写入冲突策略。
- 作业类型：
  - 重放：表示镜像功能，即源端INSERT一条记录，Hologres里也INSERT一条，源端UPDATE或者DELETE，Hologres里也相应UPDATE或者DELETE。
  - 插入：表示把Hologres当做流存储一样对待，全部使用INSERT保存源端过来的数据。
- 写入冲突策略：数据写入冲突时的处理策略，支持覆盖 (Overwrite)和忽略 (Ignore)。
配置字段映射。
系统会自动按照同名映射原则生成上游列与目标表列之间的映射，您可根据需要进行调整，支持一个上游列映射到多个目标表列，不允许多个上游列映射到一个目标表列，当上游列未配置到目标表列的映射时，对应列不会写入目标表。

四、报警配置

为避免任务出错导致业务数据同步延迟，您可以对同步任务设置报警策略。

单击页面右上方的报警配置，进入实时子任务报警设置页面。
单击新增报警，配置报警规则。
说明
此处定义的报警规则，将对该任务产生的实时同步子任务生效，您可在任务配置完成后，进入实时同步任务运行与管理界面查看并修改该实时同步子任务的监控报警规则。
管理报警规则。
对于已创建的报警规则，您可以通过报警开关控制报警规则是否开启，同时，您可以根据报警级别将报警发送给不同的人员。

五、高级参数配置

同步任务提供部分参数可供修改，您可以按需对该参数值进行修改。

说明

请在完全了解对应参数含义的情况下再进行修改，以免产生不可预料的错误或者数据质量问题。

单击界面右上方的高级参数配置，进入高级参数配置页面。
在高级参数配置页面修改相关参数值。

六、资源组配置

您可以单击界面右上方的资源组配置，查看并切换当前的任务所使用的资源组。

七、模拟运行

完成上述所有任务配置后，您可以单击右上角模拟运行，模拟整个任务针对少量采样数据的处理，查看数据写入目标表后的结果。当任务配置错误、模拟运行过程中异常或者产生脏数据时，会实时反馈出异常信息，能够帮助您快速评估任务配置的正确性，以及是否能得到预期结果。

在弹出的对话框中设置采样参数（开始时间和采样条数）。
单击开始采集得到采样数据。
单击预览按钮，模拟整个任务针对少量采样数据的处理。

八、执行同步任务

完成所有配置后，单击页面底部的完成配置。
在数据集成 > 同步任务界面，找到已创建的同步任务，单击操作列的启动。
单击任务列表中对应任务的名称/ID，查看任务的详细执行过程。

同步任务运维

查看任务运行状态

创建完成同步任务后，您可以在同步任务页面查看当前已创建的同步任务列表及各个同步任务的基本信息。

您可以在操作列启动或停止同步任务，在更多中可以对同步任务进行编辑、查看等操作。
已启动的任务您可以在执行概况中看到任务运行的基本情况，也可以单击对应的概况区域查看执行详情。

Kafka到Hologres的单表实时同步任务分为两个步骤：

结构迁移：包含目标表的创建方式（已有表或自动建表），如果是自动建表，将会为您展示建表的DDL。
实时数据同步：包含实时同步的统计信息，包含实时的读写流量、脏数据、Failover和运行日志。

任务重跑

在某些特殊情况下，如果需要修改同步字段、调整目标表字段或表名信息时，您还可以单击同步任务操作列的重跑，系统会将调整的字段、变更的目标包等信息进行同步，之前同步过未修改的表将不会再进行同步。

不修改任务配置，直接单击重跑操作，重新运行一次同步任务。
编辑任务，进行修改操作后，单击完成配置。此时任务的操作会变成应用更新，单击应用更新会直接触发修改后的任务重跑。实时同步任务会按照新的配置运行。