MySQL整库离线同步至StarRocks

数据集成目前支持将MySQL源头的数据整库离线同步至StarRocks。本文以MySQL离线同步写入StarRocks场景为例,为您介绍如何一次性把MySQL整个数据库的数据离线同步至StarRocks。

前提条件

操作步骤

一、选择同步任务类型

  1. 进入数据集成页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据集成 > 数据集成,在下拉框中选择对应工作空间后单击进入数据集成

  2. 在左侧导航栏单击同步任务,然后在页面顶部单击新建同步任务,进入同步任务的创建页面,配置如下基本信息。

    • 数据来源和去向MySQLStarRocks

    • 新任务名称:自定义同步任务名称。

    • 同步类型整库离线

    • 同步步骤:选中全量同步增量同步

二、网络与资源配置

  1. 网络与资源配置区域,选择同步任务所使用的资源组。您可以为该任务分配任务资源占用CU数。

  2. 来源数据源选择已添加的MySQL数据源,去向数据源选择已添加的StarRocks数据源后,单击测试连通性image

  3. 确保来源数据源与去向数据源均连通成功后,单击下一步

三、选择要同步的库表

此步骤中,您可以在源端库表区域选择源端数据源下需要同步的表,并单击image图标,将其移动至右侧已选库表

image

四、设置全增量控制

  1. 配置任务的全增量类型。

    • 如果您的同步步骤勾选了全量同步增量同步,此处默认展示一次性全量,周期性增量,不可更改。

    • 如果您的同步步骤选择了全量同步,此处可以选择任务的类型是一次性全量还是周期性全量。

    • 如果您的同步步骤选择了增量同步,此处可以选择任务的类型为一次性增量还是周期性增量。

      说明

      以下以一次性全量周期性增量为例,为您示例后续的配置要点。

  2. 配置周期调度参数。

    如果您的任务涉及周期性同步,则可单击周期调度参数配置进行配置。

五、目标表映射

在上一步骤选择完需要同步的表后,将自动在此界面展示当前待同步的表,但目标表的相关属性默认为待刷新映射状态,需要您定义并确认源表与目标表映射关系,即数据的读取与写入关系,然后单击刷新映射后才可进入下一步操作。您可以直接刷新映射,或自定义目标表规则后,再刷新映射。

说明
  • 您可以选中待同步表后,单击批量刷新映射,未配置映射规则时,默认表名规则为${源端库名}_${表名},若目标端不存在同名表时,将自动新建。

  • 由于需要进行周期性调度,所以需要在此定义周期性调度任务时的相关属性,包括调度周期调度时间调度资源组等。当前同步的调度配置与数据开发中节点的调度配置一致,参数详情可参见节点调度

  • 您需要设置增量条件,对源端进行WHERE字句过滤,此处只需写WHERE子句,不需要写出WHERE关键字。如果启用了周期性配置,可以使用系统参数变量。

  • 您可以在目标表名映射自定义列,单击编辑按钮可以自定义目标表名规则。

    可以使用内置变量和手动输入的字符串拼接成为最终目标表名。其中,支持您编辑内置变量,例如,新建一个表名规则,将源表名增加后缀作为目标表名。

1. 编辑字段类型映射

同步任务存在默认的源端字段类型与目标端字段类型映射,您可以单击表格右上角的编辑字段类型映射,自定义源端表与目标端表字段类型映射关系,配置完后单击应用并刷新映射

2. 编辑目标表结构并添加字段赋值

当目标表为待建立状态时,您可以为目标表在原有表结构基础上新增字段。操作如下:

  1. 为目标表添加字段

    • 单表新增字段:单击目标表名列的image.png按钮添加字段。

    • 批量新增字段:选中待同步的所有表,在表格底部选择批量修改 > 目标表结构-批量修改和新增字段

  2. 为字段赋值。您可以通过以下操作为上述步骤中新增的字段赋值。

    • 单表赋值:单击目标表字段赋值列的配置按钮,为目标表字段赋值。

    • 批量赋值:在列表底部选择批量修改 > 目标表字段赋值为目标表中相同的字段批量赋值。

    说明

    在赋值时支持赋值常量与变量,您可通过image图标切换赋值模式。

3. 自定义高级参数

如果需要对任务做精细化配置,达到自定义同步需求,可以单击自定义高级参数列的配置,修改高级参数。

重要

请在完全明白对应参数的含义情况下再进行修改,以免产生不可预料的错误或者数据质量问题。

六、报警配置

为避免任务出错导致业务数据同步延迟,您可以对同步任务设置报警策略。

  1. 单击页面右上方的报警配置,进入报警设置页面。

  2. 选择同步表的调度任务,然后为其设置报警。更多信息,请参见报警信息

七、高级参数配置

同步任务提供部分参数可供修改,您可以按需对该参数值进行修改,例如通过最大连接数上限限制,避免当前同步方案对数据库造成过大的压力从而影响生产。

说明

请在完全了解对应参数含义的情况下再进行修改,以免产生不可预料的错误或者数据质量问题。

  1. 单击界面右上方的高级参数配置,进入高级参数配置页面。

  2. 高级参数配置页面修改相关参数值。

八、资源组配置

您可以单击界面右上方的资源组配置,查看并切换当前的任务所使用的资源组。

九、执行同步任务

  1. 完成所有配置后,单击页面底部的完成配置

  2. 数据集成 > 同步任务界面,找到已创建的同步任务,单击操作列的启动

  3. 单击任务列表中对应任务的名称/ID,查看任务的详细执行过程。

同步任务运维

查看任务运行状态

创建完成同步任务后,您可以在同步任务页面查看当前已创建的同步任务列表及各个同步任务的基本信息。

image

  • 您可以在操作列启动停止同步任务,在更多中可以对同步任务进行编辑查看等操作。

  • 已启动的任务您可以在执行概况中看到任务运行的基本情况,也可以单击对应的概况区域查看执行详情。

    image

    MySQLStarRocks的整库离线同步任务中:

    • 如果您的任务同步步骤为全量同步,此处展示结构迁移以及全量同步。

    • 如果您的任务同步步骤为增量同步,此处展示结构迁移以及增量同步。

    • 如果您的任务同步步骤为全量同步+增量同步,此处展示结构迁移、全量同步以及增量同步。

任务重跑

  • 直接重跑:不修改任务配置,直接点击重跑操作。

    效果:重跑一次性任务、周期性任务属性做更新。

  • 修改后重跑(增减表场景):编辑任务,进行增减表的操作, 单击完成。这个时候任务的操作会变成应用更新,单击应用更新会直接触发修改后的任务重跑。

    效果:新增的表才会进行同步,之前同步过的表不会再同步。

  • 修改后重跑(修改表名信息):编辑任务,进行目标表的名称修改或者切换同步的目标表,点击完成。这个时候任务的操作会变成应用更新,单击应用更新会直接触发修改后的任务重跑。

    效果:同步修改过的表,没有修改的表不会再进行同步