首页 云数据库 OceanBase 用户指南 数据传输 数据同步 新建 OceanBase 数据库至 DataHub 的数据同步项目

新建 OceanBase 数据库至 DataHub 的数据同步项目

本文为您介绍如何同步 OceanBase 数据库(MySQL 和 Oracle 租户)的数据至 DataHub。

使用限制

  • 选择全量同步时,OMS 仅支持同步具有唯一键的表。

  • 同步 DDL 仅支持 Blob 类型的 Topic。

  • 当一条链路意外中断进行断点续传时,DataHub 中可能会存在部分重复数据(最近一分钟内),因此下游系统需要具备排重能力。

  • OMS 支持字符集配置为 UTF8 和 GBK 的数据同步。

  • 待同步的表名和其中的列名不能包含中文字符。

DataHub 相关的使用限制如下:

  • DataHub 官方限制一条消息具体的大小根据云环境而定,通常为 1 MB。

  • 由于是攒批发送,DataHub 限制一次只能发送 4 MB 的消息。

  • DataHub 的官方限制和命名规范请参见 DataHub 的限制描述

同步 OceanBase 数据库的增量数据至 DataHub 时,其中包含表结构至 DataHub Schema 的初始化 Schema。下表为 DataHub 数据类型的支持情况。

重要

下表仅适用于 Tuple 类型的 Topic。

类型

描述

值域

BIGINT

8 字节有符号整型

-9223372036854775807 ~ 9223372036854775807

DOUBLE

8 字节双精度浮点数

-1.0 _10^308 ~ 1.0 _10^308

BOOLEAN

布尔类型

  • True/False

  • true/false

  • 0/1

TIMESTAMP

时间戳类型

表示到微秒的时间戳类型

STRING

字符串,仅支持 UTF-8 编码

单个 STRING 列最大支持 2 MB

INTEGER

4 字节整型

-2147483648 ~ 2147483647

FLOAT

4 字节单精度浮点数

-3.40292347_10^38 ~ 3.40292347_10^38

DECIMAL

数字型

- 10^38 +1 ~ 10^38 - 1

支持的源端和目标端实例类型

源端

目标端

OceanBase 数据库 (OceanBase 实例)

说明

OceanBase 数据库包括 MySQL 和 Oracle 两种租户类型。

DataHub(阿里云 DataHub 实例)

OceanBase 数据库(OceanBase 实例)

DataHub(VPC 内自建 DataHub 实例)

OceanBase 数据库(OceanBase 实例)

DataHub(公网 DataHub 实例)

同步 DDL 支持的范围

重要

同步 DDL 仅支持 Blob 类型的 Topic。

  • 创建表 ALTER TABLE

    • 添加列 ADD COLUMN

    • 修改列的长度 MODIFY COLUMN

    • 删除列 DROP COLUMN

  • 创建索引 CREATE INDEX

  • 删除索引 DROP INDEX

  • 清空 TRUNCATE

数据类型映射

目前同步的 DataHub 类型仅支持 INTEGER、BIGINT、TIMESTAMP、FLOAT、DOUBLE、DECIMAL、STRING 和 BOOLEAN。

  • 如果您选择新建 Topic 的映射方式时,创建了其它类型的 Topic,会导致数据同步失败。

  • 本文表格中提供的默认映射规则为最合适的映射。如果您改变映射,可能会产生报错。

OceanBase 数据库 MySQL 租户和 DataHub 之间的数据类型映射

OceanBase 数据库 MySQL 租户

默认映射 DataHub 类型

BIT

STRING(Base64 编码)

CHAR

STRING

BINARY

STRING(Base64 编码)

VARBINARY

STRING(Base64 编码)

INT

BIGINT

TINYINT

BIGINT

SMALLINT

BIGINT

MEDIUMINT

BIGINT

BIGINT

DECIMAL(因为无符号超过 Java 中的 LONG 大小)

FLOAT

DECIMAL

DOUBLE

DECIMAL

DECIMAL

DECIMAL

DATE

STRING

TIME

STRING

YEAR

BIGINT

DATETIME

STRING

TIMESTAMP

TIMESTAMP(使用毫秒级时间戳展示)

VARCHAR

STRING

TINYBLOB

STRING(Base64 编码)

TINYTEXT

STRING

BLOB

STRING(Base64 编码)

TEXT

STRING

MEDIUMBLOB

STRING(Base64 编码)

MEDIUMTEXT

STRING

LONGBLOB

STRING(Base64 编码)

LONGTEXT

STRING

ENUM

STRING

SET

STRING

OceanBase 数据库 Oracle 租户和 DataHub 之间的数据类型映射

OceanBase 数据库 Oracle 租户

默认映射 DataHub 类型

CHAR

STRING

NCHAR

STRING

VARCHAR2

STRING

NVARCHAR2

STRING

CLOB

STRING

NCLOB

STRING

BLOB

STRING(Base64 编码)

NUMBER

DECIMAL

BINARY_FLOAT

DECIMAL

BINARY_DOUBLE

DECIMAL

DATE

STRING

TIMESTAMP

STRING

TIMESTAMP WITH TIME ZONE

STRING

TIMESTAMP WITH LOCAL TIME ZONE

STRING

INTERVAL YEAR TO MONTH

STRING

INTERVAL DAY TO SECOND

STRING

LONG

STRING(Base64 编码)

RAW

STRING(Base64 编码)

LONG RAW

STRING(Base64 编码)

ROWID

STRING

UROWID

STRING

FLOAT

DECIMAL

补充 Properties

如果自行创建 Topic,启动数据同步项目前,请在 DataHub 的 Schema 中补充下述 Properties。如果由 OMS 自动创建 Topic 和结构同步,OMS 会自动补充下述 Properties。

重要

该部分内容仅适用于 Tuple 类型的 Topic。

名称

类型

含义

oms_timestamp

STRING

发生变更的时间。

oms_table_name

STRING

源端为表时,变更表名。

oms_database_name

STRING

源端为数据库时,变更库名。

oms_sequence

STRING

数据至同步进程内存中的时间戳,由时间 + 5 位递增数字组成。如果发生时钟回退的情况,会导致数据不一致。

oms_record_type

STRING

变更类型,包括 UPDATEINSERTDELETE

oms_is_before

STRING

如果是 UPDATE 类型,Y 表示该条数据为变更前的数据。

oms_is_after

STRING

如果是 UPDATE 类型,Y 表示该条数据为变更后的数据。

操作步骤

  1. 新建同步项目。

    1. 登录 OceanBase 管理控制台

    2. 在左侧导航栏,单击 数据传输>数据同步

    3. 数据同步 页面,单击右上角的 新建同步项目

  2. 选择源和目标 页面,配置各项参数。

    参数

    描述

    同步项目名称

    建议使用中文、数字和字母的组合。名称中不能包含空格,长度不得超过 64 个字符。

    源端

    如果您已创建 OceanBase 数据源,请从下拉列表中进行选择。如果未创建,请单击下拉列表中的 添加数据源,在右侧对话框进行添加。参数详情请参见 创建数据源(OceanBase)

    目标端

    如果您已创建 DataHub 数据源,请从下拉列表中进行选择。如果未创建,请单击下拉列表中的 添加数据源,在右侧对话框进行添加。参数详情请参见 创建数据源(DataHub)

    传输实例

    从下拉列表中选择已经购买的 传输实例。如果您未购买,请单击右侧的 购买 进行操作。详情请参见 购买传输实例

  3. 单击 下一步

  4. 选择同步类型及对象 页面,勾选当前数据同步项目的 同步类型和配置

    同步类型和配置 包括 结构同步全量同步增量同步结构同步 实际为创建 Topic,增量同步 包括 数据变更 DML同步 DDL

    • 数据变更 DML 包括 InsertDeleteUpdate,默认全部勾选。

    • 仅 Topic 类型为 Blob 时,支持选择 同步 DDL

  5. 选择同步范围 页面,选择需要同步的 Topic 类型和范围。

    Topic 类型包括 Tuple 和 Blob。Tuple 类型的 Topic 支持类似于数据库记录的数据,每条记录包含多个列。Blob 类型的 Topic 仅支持写入一块二进制数据作为一个 Record,数据将会以 BASE64 编码传输。详情请参见 DataHub 官方文档。

    选择需要同步的 Topic 类型后,请进行以下操作:

    1. 在选择区域左侧选中需要同步的对象。

    2. 单击 >

    3. 根据业务需求,选择映射方式。

      • 如果选择同步单张表,请在 将对象映射至 Topic 对话框中,选择需要的映射方式进行配置,单击 确定

        如果设置同步类型和配置时未勾选 结构同步,则仅支持选择 已有 Topic。如果设置同步类型和配置时已选择 结构同步,则仅支持选择一种映射方式进行 Topic 的创建或选择。

        例如,已选择结构同步的情况下,您使用了新建 Topic 和选择已有 Topic 两种映射方式,或通过重命名的方式更改了 Topic 的名称,会因为选项冲突导致预检查报错。

        参数

        描述

        新建 Topic

        在文本框中输入新建 Topic 的名称。支持 128 位以内的字母、数字或下划线(_),且必须以字母开头。

        选择 Topic

        OMS 提供查询 DataHub Topic 的能力,您可以单击 选择 Topic,在 已有 Topic 下拉列表中,搜索并选中需要同步的 Topic。

        批量生成 Topic

        批量生成 Topic 的规则为 Topic_${Database Name}_${Table Name}

        如果您选择 新建 Topic批量生成 Topic,结构同步成功后,在 DataHub 侧能够查询到新建的 Topic。其分片数量默认为 2 个,数据过期时间默认为 7 天,且不支持修改。

      • 如果选择同步多张表,请在弹出的对话框中,单击 确定

        如果您选择 Tuple 类型的 Topic 但未勾选 结构同步,选择多张表时,在 将对象映射至 Topic 对话框中选择一个已有 Topic 并单击确定后,右侧一个 Topic 下会显示多张表,但实际仅支持同步一张表。此时单击 下一步,界面会弹出提示:Tuple 类型的 Topic 与表仅支持 One to One 映射关系。

    选择同步对象后,OMS 支持对目标端对象进行重命名、设置行过滤、移除单个对象或全部对象等操作。目标端对象的结构为 Topic>DataBase>Table。

    操作

    步骤

    导入对象

    1. 在选择区域的右侧列表中,单击右上角的 导入对象

    2. 在对话框中,单击 确定

      重要

      导入会覆盖之前的操作选择,请谨慎操作。

    3. 导入同步对象 对话框中,导入需要同步的对象。 您可以通过导入 CSV 文件的方式进行库表重命名、设置行过滤条件等操作。详情请参见 下载和导入同步对象配置

    4. 单击 检验合法性

    5. 通过合法性的检验后,单击 确定

    重命名

    OMS 支持重命名 Topic 的名称。

    1. 在选择区域的右侧列表中,鼠标悬停至目标 Topic。

    2. 单击显示的 重命名

    3. 输入修改后的名称,单击 确定

    设置

    OMS 支持 WHERE 条件实现行过滤,以及选择分片列和需要同步的列。

    1. 在选择区域的右侧列表中,鼠标悬停至目标表对象。

    2. 单击显示的 设置

    3. 设置 对话框中,您可以进行以下操作。

      • 行过滤条件 区域的文本框中,输入标准的 SQL 语句中的 WHERE 子句,来配置行过滤。其作用范围为 全量同步 + 增量同步

        只有满足 WHERE 条件的数据才会被同步至目标数据源,以实现数据的行过滤。如果语句中包含 SQL 保留关键字,请添加转义符(`)。

      • 分片列 下拉列表中,选择目标分片列。您可以选择多个字段作为分片列,该参数为选填。

        选择分片列时,如果没有特殊情况,默认选择主键即可。如果存在主键负载不均衡的情况,请选择唯一性标识且负载相对均衡的字段作为分片列。

        请确保分片列的正确性。分片列填写错误,会导致数据同步项目失败。分片列的主要作用如下:

        • 负载均衡:在目标端可以进行并发写入的情况下,通过分片列区分发送消息需要使用的特定线程。

        • 有序性:由于存在并发写入可能导致的无序问题,OMS 确保在分片列的值相同的情况下,用户接收到的消息是有序的。此处的有序是指变更顺序(DML 对于一列的执行顺序)。

      • 选择列 区域,选择需要同步的列。全选或不勾选任何列,OMS 会同步全部列。

    4. 单击 确定

    移除/全部移除

    OMS 支持移除单个或全部同步对象。

    • 移除单个同步对象

      在选择区域的右侧列表中,鼠标悬停至目标对象,单击显示的 移除,即可移除该同步对象。

    • 移除全部同步对象

      在选择区域的右侧列表中,单击右上角的 全部移除。在对话框中,单击 确定,即可移除全部同步对象。

  6. 单击 下一步

  7. 同步选项 页面,配置各项参数。

    分类

    参数

    描述

    同步设置

    增量同步起始位点

    • 如果设置同步类型和配置时已勾选 全量同步,此处默认为项目启动时间,不支持修改。

    • 如果设置同步类型和配置时未勾选 全量同步,请在此处指定同步某个时间节点之后的数据,默认为当前系统时间。您可以选择时间节点,也可以直接输入时间戳。

      重要

      仅支持选择当前时间,或当前时间之前的时间点。

      该位点与当前归档日志的保留时间密切相关。如果无特殊要求,可以从当前位点开始启动。

    高级选项

    开启事务内序号编排

    根据需求,设置是否开启事务内保持排序。如果开启,OMS 可以为一个事务发送至下游进行顺序标识。

    分区规则

    同步源端数据至 DataHub Topic 的规则,目前支持 HashTable。推荐您选择 Table,以确保下游在消费消息时,不会出现 DDL 与 DML 消费不统一的情况。

    • Hash 表示 OMS 使用一定的 Hash 算法,根据主键值或分片列值 Hash 选择 DataHub 的 Shard。

    • Table 表示 OMS 将一张表中的全部数据投递至同一个分区中,以表名作为 Hash 键。

    业务系统标识(可选)

    用于标识数据的业务系统来源,以便您后续进行自定义处理。该业务系统标识的长度限制为 1~20 个字符。

  8. 单击 预检查

    预检查 环节,OMS 仅检查列名、列类型,以及是否为空,不检查长度和默认值。如果预检查报错,请排查并处理问题后,重新执行预检查,直至预检查成功。

  9. 单击 启动项目

    如果您暂时无需启动任务,请单击 保存,跳转至数据同步项目的详情页面,您可以根据需要手动启动数据同步项目。如果您需要查看详情,请参见 查看数据同步项目的详情

如果中途接入数据的过程出错(通常由于网络不通或进程启动过慢导致),您可以进入任务的详情页面,单击右上角的 恢复(此处为了延时,使用暂停再恢复)。

阿里云首页 云数据库 OceanBase 相关技术圈