Hologres单表实时同步至Doris

单表实时同步任务根据来源的Hologres表结构在目标Doris数据源中创建目标表,并写入来源表的数据。本文为您介绍如何将Hologres单表数据实时ETLDoris任务。

使用限制

  • Hologres版本必须在2.1以上。

  • 不支持Hologres分区表的增量同步。

  • 不支持HologresDDL变更消息同步。

  • Hologres增量同步支持的数据类型包括以下类型:

    INTEGER、BIGINT、TEXT、CHAR(n)、VARCHAR(n)、REAL、JSON、SERIAL、OID、INT4[]、INT8[]、FLOAT8[]、BOOLEAN[]、TEXT[]。

前提条件

操作步骤

一、选择同步任务类型

  1. 进入数据集成页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据集成 > 数据集成,在下拉框中选择对应工作空间后单击进入数据集成

  2. 在左侧导航栏单击同步任务,然后在页面顶部单击新建同步任务,进入同步任务的创建页面,配置如下基本信息。

    • 数据来源和去向HologresDoris

    • 新任务名称:自定义同步任务名称。

    • 同步类型单表实时

    • 同步步骤:选择全量同步

二、网络与资源配置

  1. 网络与资源配置区域,选择同步任务所使用的资源组。您可以为该任务分配任务资源占用CU数。

  2. 来源数据源选择已添加的Hologres数据源,去向数据源选择已添加的Doris数据源后,单击测试连通性image

  3. 确保来源数据源与去向数据源均连通成功后,单击下一步

三、配置同步链路

1、配置Hologres来源

在页面上方单击数据来源Hologres,编辑Holo来源信息

image

  1. Holo来源信息区域,选择要读取的Hologres表所在的Schema,以及来源表。

  2. 单击右上角的数据采样

    数据输出预览对话框中指定好采样条数,单击开始采集按钮,可以对指定的Hologres进行数据采样,预览Hologres中的数据,为后续可视化配置提供输入。

3、配置Doris去向信息

在页面上方单击数据去向Doris,编辑Doris去向信息

image

  1. Doris去向信息区域,选择要写入的Doris表所在的数据库,以及目标表是自动建表还是使用已有表

    • 如果是自动建表,默认会创建与数据来源端相同的表名,您可以手动修改目标端表名。

    • 如果是使用已有表,请下拉选择需要同步的目标表。

  2. (可选)编辑表结构。

    当选择自动建表时,您需要单击编辑表结构按钮,在弹框中编辑目标表结构。同时,支持您单击根据上游节点输出列重新生成表结构按钮,自动根据上游节点输出列,生成表结构。您可以在自动生成的表结构中选择一列配置为主键和分桶列。

    说明

    目标表必须有主键和分桶列,否则无法保存配置。

  3. 设置上游流入动态字段处理策略

    当上游字段在Doris中没有对应字段时,支持忽略报错重放

  4. 配置字段映射。

    系统会自动按照同名映射原则生成上游列与目标表列之间的映射,您可根据需要进行调整,支持一个上游列映射到多个目标表列,不允许多个上游列映射到一个目标表列,当上游列未配置到目标表列的映射时,对应列不会写入目标表。

四、报警配置

为避免任务出错导致业务数据同步延迟,您可以对同步任务设置报警策略。

  1. 单击页面右上方的报警配置,进入实时子任务报警设置页面。

  2. 单击新增报警,配置报警规则。

    说明

    此处定义的报警规则,将对该任务产生的实时同步子任务生效,您可在任务配置完成后,进入实时同步任务运行与管理界面查看并修改该实时同步子任务的监控报警规则。

  3. 管理报警规则。

    对于已创建的报警规则,您可以通过报警开关控制报警规则是否开启,同时,您可以根据报警级别将报警发送给不同的人员。

五、高级参数配置

同步任务提供部分参数可供修改,您可以按需对该参数值进行修改。

说明

请在完全了解对应参数含义的情况下再进行修改,以免产生不可预料的错误或者数据质量问题。

  1. 单击界面右上方的高级参数配置,进入高级参数配置页面。

  2. 高级参数配置页面修改相关参数值。

六、资源组配置

您可以单击界面右上方的资源组配置,查看并切换当前的任务所使用的资源组。

七、执行同步任务

  1. 完成所有配置后,单击页面底部的完成配置

  2. 数据集成 > 同步任务界面,找到已创建的同步任务,单击操作列的启动

  3. 单击任务列表中对应任务的名称/ID,查看任务的详细执行过程。

同步任务运维

查看任务运行状态

创建完成同步任务后,您可以在同步任务页面查看当前已创建的同步任务列表及各个同步任务的基本信息。

image

  • 您可以在操作列启动停止同步任务,在更多中可以对同步任务进行编辑查看等操作。

  • 已启动的任务您可以在执行概况中看到任务运行的基本情况,也可以单击对应的概况区域查看执行详情。

image

HologresDoris的单表实时同步任务分为三个步骤:

  • 结构迁移:包含目标表的创建方式(已有表或自动建表),如果是自动建表,将会为您展示建表的DDL。

  • 全量初始化:如果您的任务同步步骤选择了全量同步,此处将展示全量初始化进度。

  • 实时数据同步:包含实时同步的统计信息,包含实时的读写流量、脏数据、Failover和运行日志。

任务重跑

在某些特殊情况下,如果需要修改同步字段、调整目标表字段或表名信息时,您还可以单击同步任务操作列的重跑,系统会将调整的字段、变更的目标包等信息进行同步,之前同步过未修改的表将不会再进行同步。

  • 不修改任务配置,直接单击重跑操作,重新运行一次同步任务。

  • 编辑任务,进行修改操作后,单击完成配置。此时任务的操作会变成应用更新,单击应用更新会直接触发修改后的任务重跑。实时同步任务会按照新的配置运行。