一键实时同步至AnalyticDB MySQL 3.0方案支持全增量一体化同步,先进行全量数据迁移,然后再实时同步增量数据至目标端。本文为您介绍如何创建一键实时同步至AnalyticDB MySQL 3.0任务。

前提条件

  1. 已完成数据源配置。您需要在数据集成同步任务配置前,配置好您需要同步的源端和目标端数据库,以便在同步任务配置过程中,可通过选择数据源名称来控制同步任务的读取和写入数据库。同步解决方案支持的数据源及其配置详情请参见支持的数据源与读写能力
    说明 数据源相关能力介绍详情请参见:数据源概述
  2. 已购买合适规格的独享数据集成资源组。详情请参见:新增和使用独享数据集成资源组
  3. 已完成数据集成资源组与数据源的网络连通。详情请参见:配置资源组与网络连通
  4. 已完成数据源环境准备。您可以基于您需要进行的同步配置,在同步任务执行前,授予数据源配置的账号在数据库进行相应操作的权限。详情请参见:数据库环境准备概述

操作流程

  1. 步骤一:选择同步方案
  2. 步骤二:配置网络连通
  3. 步骤三:设置同步来源与规则
  4. 步骤四:设置目标表
  5. 步骤五:DDL消息处理规则
  6. 步骤六:运行资源设置
  7. 步骤七:执行同步任务

步骤一:选择同步方案

创建同步解决方案任务,根据需求选择需要同步的源端数据源,目标端数据源MaxCompute,并选择一键实时同步至AnalyticDB MySQL 3.0方案。

步骤二:配置网络连通

源端选择已创建的源端数据源与目标端数据源,以及用于执行同步任务的资源组。并测试资源组与数据源的网络连通。详情请参见:配置同步网络链接

步骤三:设置同步来源与规则

  1. 基本配置区域,配置同步解决方案的名称、任务存放位置等信息。
  2. 数据来源区域,确认需要同步的源端数据源相关信息。
  3. 选择同步的源表区域,选中需要同步的源表,单击图标图标,将其移动至已选源表

    该区域会为您展示所选数据源下所有的表,您可以选择整库全表或部分表进行同步。

  4. 设置表名的映射规则区域,单击添加规则,选择相应的规则进行添加。
    同步时默认将源端数据表写入目的端同名表中,同时,您可以通过添加映射规则定义最终写入目的端的表名称。支持通过正则表达式转换写入的表名,还支持指定内置变量拼接目标表名。您可以通过该功能实现将多张表数据写入到同一个表中,或统一将源端某固定前缀的表名在写入目标表时更新为其他前缀。配置逻辑请参见:步骤四:设置同步来源与规则

步骤四:设置目标表

  1. 确认写入模式
    写入模式目前仅支持重放,即源端INSERT一条记录,目的端中也INSERT一条记录;源端执行UPDATE或DELETE操作,目的端中也进行UPDATE或DELETE。
  2. 刷新源表与目标表映射。
    单击刷新源表和AnalyticDB MySQL 3.0表映射将根据您在步骤三配置的目标表名映射规则来生成目标表,若步骤三未配置映射规则,将默认写入与源表同名的目标表,若目标端不存在该同名表,将默认新建。同时,您可以修改表建立方式、为目标表在源有表字段基础上增加附加字段。
    说明 目标表名将跟据您在设置表名的映射规则阶段配置的表名转换规则自动转换。
    功能 描述
    为非主键表选择主键 由于当前方案不支持无主键表同步,所以您需要单击同步主键列的编辑按钮,为无主键表设置自选主键,即选择表中一个或部分字段作为主键,写入目标端时将会使用该主键进行去重。
    选择表建立方式 您可以在表建立方式列选择在同步任务执行时自动根据映射关系在目标端创建表,或选择将数据写入已有表。
    配置表分类 表类型列,确认及修改目标表类型,关于分区表和维度表的相关介绍请参见:基本概念
    选择分布字段列 分布字段列,单击编辑按钮为目标表选择合适的分布键,默认使用源端表主键作为目标AnalyticDB MySQL3.0表的分布键。
    说明 分布字段列即AnalyticDB的分布键,用于指定数据按分布字段列的哈希值在AnalyticDB数据存储节点间分布。
    为目标字段添加附加字段 单击操作列的编辑附加字段,可以为目标表在源端字段的基础上增加字段并为字段赋值。支持手动赋值常量与变量。
    说明 仅在表建立方式自动建表时,可以使用此功能。
    数据集成附加字段支持的变量字段如下:
    EXECUTE_TIME:执行时间
    UPDATE_TIME:更新时间
    DB_NAME_SRC:原始数据库名称
    DB_NAME_SRC_TRANSED:转换后数据库名称
    DATASOURCE_NAME_SRC:源端数据源名称
    DATASOURCE_NAME_DEST:目的端数据源名称
    DB_NAME_DEST:目的端数据库名称
    TABLE_NAME_DEST:目的端表名称
    TABLE_NAME_SRC:源端表名称
    编辑目标表 同步解决方案默认根据源端生成目标表结构,可能存在字段类型转换,即若目标端数据库中没有与源端一致的数据类型时,同步任务在自动创建目标表时,将自动为源端字段匹配目标端可写入的字段类型。若您需要修改目标表字段类型映射,您可单击AnalyticDB MySQL 3.0表名列的目标表名进行修改。
  3. 确认配置无误后,单击下一步

步骤五:DDL消息处理规则

来源数据源会包含许多DDL操作,数据集成体提供默认处理策略,您也可以根据业务需求,对不同的DDL消息设置同步至目标端的处理策略。不同DDL消息处理策略请参见:DDL消息处理规则

步骤六:运行资源设置

当前方案创建后将分别生成全量数据离线同步子任务和增量数据实时同步子任务。您需要在运行资源设置界面配置离线同步任务和实时同步任务的相关属性。

包括实时增量同步及离线全量同步使用的独享数据集成资源组、离线全量同步使用的调度资源组,同时,单击高级配置可配置是否容忍脏数据、任务最大并发数、源库允许支持的最大连接数等参数。

说明
  • DataWorks的离线同步任务通过调度资源组将其下发到数据集成任务执行资源组上执行,所以离线同步任务除了涉及数据集成任务执行资源组外,还会占用调度资源组资源。如果使用了独享调度资源组,将会产生调度实例费用。您可通过任务下发机制对该机制进行了解。
  • 离线和实时同步任务推荐使用不同的资源组,以便任务分开执行。如果选择同一个资源组,任务混跑会带来资源抢占、运行态互相影响等问题。例如,CPU、内存、网络等互相影响,可能会导致离线任务变慢或实时任务延迟等问题,甚至在资源不足的极端情况下,可能会出现任务被OOM KILLER杀掉等问题。

步骤七:执行同步任务

  1. 进入数据集成 > 同步任务界面,找到已创建的同步方案。
  2. 单击操作列的启动按钮,启动同步的运行。
  3. 单击操作列的执行详情,查看任务的详细执行过程。

后续步骤

完成任务配置后,您可以对已创建的任务进行管理、执行加减表操作,或对任务配置监控报警,并查看任务运行的关键指标等。详情请参见:同步解决方案任务运维