本文为您介绍如何同步 OceanBase 数据库 MySQL 租户的数据至云原生数据仓库 AnalyticDB MySQL 版。
背景信息
AnalyticDB MySQL 版的基本介绍请参见 基础数据类型。
AnalyticDB MySQL 版的建表、分区表和分布表的详情请参见 CREATE TABLE。
前提条件
数据传输已具备云资源访问权限。详情请参见 数据传输迁移角色授权。
已为源端 OceanBase 数据库创建专用于数据同步任务的数据库用户,并为其赋予了相关权限。详情请参见 创建数据库用户。
使用限制
数据传输支持的 AnalyticDB MySQL 版本为 V3.0。
数据传输仅支持同步库名、表名和列名为 ASCII 码且不包含特殊字符(包括换行、空格,以及 .|"'`()=;/&\)的对象。
注意事项
当 OceanBase 数据库 V4.x 进行增量同步时,如果生成列没有标记 STORED 属性,则同步目标端时该列将同步为 NULL 值,导致下游接收该列数据时不符合预期。
节点之间的时钟不同步,或者电脑终端和服务器之间的时钟不同步,均可能导致增量同步的延迟时间不准确。
例如,如果时钟早于标准时间,可能导致延迟时间为负数。如果时钟晚于标准时间,可能导致延迟。
同步 OceanBase 数据库 MySQL 租户的数据至 AnalyticDB MySQL 版时,关于索引的处理如下:
同步有主键表时,删除其他所有索引。
同步有非空唯一键索引的无主键表时,使用第一个非空唯一索引作为主键,删除其他所有索引。
不支持同步无非空唯一键索引的无主键表。
当源端/目标端中存在 TIMESTAMP 时间类型,且该时间处于夏令时的规定时间范围时,因为源端/目标端对时间格式的处理方式不一致,可能导致源端数据写入目标端产生不一致的问题,存在一个小时的时差。
例如,源端/目标端设置 TIMEZONE 为 "+8:00" 后,OceanBase 数据库 MySQL 租户查询结果为非夏令时时间,AnalyticDB MySQL 查询结果为夏令时时间。AnalyticDB MySQL 比 OceanBase 数据库 MySQL 租户快一个小时。
如果在创建数据同步任务时,您仅配置了 增量同步,数据传输要求源端数据库的本地增量日志保存 48 小时以上。
如果在创建数据同步任务时,您配置了 全量同步+增量同步,数据传输要求源端数据库的本地增量日志至少保留 7 天以上。否则数据传输可能因无法获取增量日志而导致数据同步任务失败,甚至导致源端和目标端数据不一致。
如果源端或目标端存在仅大小写不同的表对象,可能会因为源端或目标端大小写不敏感导致数据迁移的结果不符合预期。
支持的源端和目标端实例类型
下表中,OceanBase 数据库 MySQL 租户简称为 OB_MySQL。
源端 | 目标端 |
OB_MySQL(OceanBase 集群实例) | AnalyticDB MySQL |
OB_MySQL(Serverless 实例) | AnalyticDB MySQL |
数据类型映射
OceanBase 数据库 MySQL 租户数据类型 | AnalyticDB MySQL 版 V3.0 数据类型 |
BIGINT | BIGINT |
BINARY | VARBINARY |
BIT | VARBINARY |
BLOB | VARBINARY |
CHAR | VARCHAR |
DATE | DATE |
DATETIME | DATETIME |
DECIMAL | DECIMAL(p,s) p: 1~1000 s<=p |
DOUBLE | DOUBLE |
ENUM | VARCHAR |
FLOAT | FLOAT |
INT | INT |
INTEGER | INT |
LONGBLOB | VARBINARY |
LONGTEXT | VARCHAR |
MEDIUMBLOB | VARBINARY |
MEDIUMTEXT | VARCHAR |
NUMERIC | DECIMAL |
SET | VARCHAR |
SMALLINT | SMALLINT |
TEXT | VARCHAR |
TIME | TIME |
TIMESTAMP | TIMESTAMP |
TINYBLOB | VARBINARY |
TINYINT | TINYINT |
TINYTEXT | VARCHAR |
VARBINARY | VARBINARY |
VARCHAR | VARCHAR |
YEAR | BIGINT |
操作步骤
登录 OceanBase 管理控制台,购买数据同步任务。
详情请参见 购买数据同步任务。
在 数据传输 > 数据同步 页面,单击新购买的数据同步任务后的 配置。
如果您需要引用已有的任务配置信息,可以单击 引用配置。详情请参见 引用和清空数据同步任务配置。
在 选择源和目标 页面,配置各项参数。
参数
描述
同步任务名称
建议使用中文、数字和字母的组合。名称中不能包含空格,长度不能超过 64 个字符。
源端
如果您已新建 OceanBase 数据源,请从下拉列表中进行选择。如果未新建,请单击下拉列表中的 新建数据源,在右侧对话框进行新建。参数详情请参见 新建 OceanBase 数据源。
目标端
如果您已新建 AnalyticDB MySQL 数据源,请从下拉列表中进行选择。如果未新建,请单击下拉列表中的 新建数据源,在右侧对话框进行新建。参数详情请参见 新建 ADB 数据源。
标签(可选)
单击文本框,在下拉列表中选择目标标签。您也可以单击 管理标签,进行新建、修改和删除。详情请参见 通过标签管理数据同步任务。
单击 下一步。在 选择同步类型 页面,选择当前数据同步任务的同步类型。
同步类型包括 结构同步、全量同步 和 增量同步,增量同步 包括 DML 同步(包括 Insert、Delete 和 Update) 和 DDL 同步,您可以根据需求进行自定义配置。详情请参见 自定义配置 DDL/DML,DDL 同步的支持范围请参见 DDL 同步范围。
单击 下一步。在 选择同步对象 页面,选择当前数据同步任务需要同步的对象。
您可以通过 指定对象 和 匹配规则 两个入口选择同步对象。本文为您介绍通过 指定对象 方式选择同步对象的具体操作,配置匹配规则的详情请参见 配置匹配规则 中库到库的通配规则说明和配置方式。
重要待同步的表名和其中的列名不能包含中文字符。
当数据库的库名或表名存在“$$”字符时,会影响数据同步任务的创建。
如果您在 选择同步类型 步骤已勾选 DDL 同步,建议通过匹配规则方式选择同步对象,以确保所有符合同步对象规则的新增对象都将被同步。如果您通过指定对象方式选择同步对象,则新增对象或重命名后的对象将不会被同步。
在 选择同步对象 区域,选中 指定对象。
在 选择同步范围 区域的 源端对象 列表中选中需要同步的对象。您可以选择一个或多个库的表作为同步对象。
单击 >,将其添加至 目标端对象 列表中。
数据传输支持通过文本导入对象,并支持对目标端对象进行重命名、设置行过滤、移除单个对象或全部对象等操作。
说明通过 匹配规则 方式选择同步对象时,重命名能力由匹配规则语法覆盖,操作处仅支持设置过滤条件,以及选择分片列和需要同步的列。详情请参见 配置匹配规则。
操作
步骤
导入对象
在选择区域的右侧列表中,单击右上角的 导入对象。
在对话框中,单击 确定。
重要导入会覆盖之前的操作选择,请谨慎操作。
在 导入同步对象 对话框中,导入需要导入的对象。
您可以通过导入 CSV 文件的方式进行库表重命名、设置行过滤条件等操作。详情请参见 下载和导入同步对象配置。
单击 检验合法性。
完成同步对象导入后,请先检验合法性。o'o'o'o目前暂不支持列字段映射。
通过检验后,单击 确定。
重命名
数据传输支持重命名同步对象的名称,详情请参见 数据库库表重命名。
设置
数据传输支持
where
条件实现行过滤、选择需要同步的列,以及设置主键列、分布键和分区键等。在选择区域的右侧列表中,鼠标悬停至目标对象。
单击显示的 设置。
在 设置 对话框中,您可以进行以下操作:
输入标准的 SQL 语句中的
WHERE
子句,来配置行过滤。详情请参见 SQL 条件过滤数据。重新设置主键列。
默认展示当前表的主键列(可以是多列)。您可以删除现有的主键列,通过单击下拉或搜索的方式,重新设置主键列(支持多列)。
设置分布键(可选)。
设置分区键。如果您开启了设置分区键,则需要:
在 分区键表达式 文本框中输入表达式。例如,
PARTITION BY VALUE('id')
。设置生命周期。生命周期用于分区管理,对分区进行排序,超出 N 的分区将被过滤。
单击 确定。
移除/全部移除
数据传输支持在数据映射时,对暂时选中到目标端的单个或多个对象进行移除操作。
移除单个同步对象
在选择区域的右侧列表中,鼠标悬停至目标对象,单击显示的 移除,即可移除该同步对象。
移除全部同步对象
在选择区域的右侧列表中,单击右上角的 全部移除。在对话框中,单击 确定,即可移除全部同步对象。
单击 下一步。在 同步选项 页面,配置各项参数。
全量同步
在 选择同步类型 页面,选中 全量同步,才会显示下述参数。
参数
描述
读取并发配置
该参数用于配置全量同步阶段从源端读取数据的并发数,最大限制为 512.并发数过高可能会造成源端压力过大,影响业务。
写入并发配置
该参数用于配置全量同步阶段往目标端写入数据的并发数,最大限制为 512。并发数过高可能会造成目标端压力过大,影响业务。
全量同步速率限制
您可以根据实际需求决定是否开启全量同步速率限制。如果开启,请设置 RPS(全量同步阶段每秒最多可以同步至目标端的数据行数的最大值限制)和 BPS(全量同步阶段每秒最多可以同步至目标端的数据量的最大值限制)。
说明此处设置的 RPS 和 BPS 仅作为限速限流能力,全量同步实际可以达到的性能受限于源端、目标端、实例规格配置等因素的影响。
目标端表对象存在记录时处理策略
选择 忽略:目标端表对象存在数据时,如果原数据与写入数据冲突,数据传输采用将冲突数据记录日志,保留原数据不变的策略进行数据写入。
重要选择 忽略,全量校验将使用 IN 模式拉取数据,无法校验目标端多数据的场景,并且校验性能存在一定程度降级。
选择默认值 停止迁移:当目标端表对象存在数据时,全量迁移会报错不允许迁移,请处理好目标端数据后再继续迁移。
重要如果出错后单击恢复,数据传输将忽略该配置选项,继续迁移表数据,请谨慎操作。
增量同步
在 选择同步类型 页面,选中 增量同步,才会显示下述参数。
参数
描述
写入并发配置
该参数用于配置增量同步阶段往目标端写入数据的并发数,最大限制为 512。并发数过高可能会造成目标端压力过大,影响业务。
增量同步速率限制
您可以根据实际需求决定是否开启增量同步速率限制。如果开启,请设置 RPS(增量同步阶段每秒最多可以同步至目标端的数据行数的最大值限制)和 BPS(增量同步阶段每秒最多可以同步至目标端的数据量的最大值限制)。
说明此处设置的 RPS 和 BPS 仅作为限速限流能力,增量同步实际可以达到的性能受限于源端、目标端、实例规格配置等因素的影响。
增量同步起始位点
如果选择同步类型时已选择 全量同步,则不支持修改该参数。
如果选择同步类型时未选择 全量同步,但选择了 增量同步,请在此处指定同步某个时间节点之后的数据,默认为当前系统时间。详情请参见 设置增量同步位点。
单击 预检查。
在 预检查 环节,数据传输会检测源端和目标端的连接情况。如果预检查报错:
您可以在排查并处理问题后,重新执行预检查,直至预检查成功。
您也可以单击错误预检查项操作列中的 跳过,会弹出对话框提示您跳过本操作的具体影响,确认可以跳过后,请单击对话框中的 确定。
预检查成功后,单击 启动任务。
如果您暂时无需启动任务,请单击 保存。后续您只能在 同步任务列表 页面手动启动任务或通过批量操作启动任务。批量操作的详情请参见 批量操作数据同步任务。
数据传输支持在数据同步任务运行过程中修改同步对象,详情请参见 查看和修改同步对象及其过滤条件。数据同步任务启动后,会根据选择的同步类型依次执行,详情请参见 查看同步详情。
如果数据同步任务运行报错(通常由于网络不通或进程启动过慢导致),您可以在数据同步任务的列表或详情页面,单击 恢复。