本文为您介绍如何使用数据传输迁移 MySQL 数据库的数据至 OceanBase 数据库 MySQL 兼容模式。
如果数据迁移任务长期处于非活跃状态(任务状态为 失败、已暂停 或 已完成),受增量日志保留时长等影响,任务可能无法恢复。数据传输将主动释放处于非活跃状态超过 3 天的数据迁移任务,以回收相关资源,建议您为任务配置告警并及时处理任务相关异常。
前提条件
- 数据传输已具备云资源访问权限。详情请参见 数据传输迁移角色授权。 
- 已为源端 MySQL 数据库和目标端 OceanBase 数据库 MySQL 兼容模式创建专用于数据迁移的数据库用户,并赋予其相关权限。详情请参见 配置数据源用户权限 模块的文档。 
- 已开启 Binlog。RDS MySQL 数据库的详情请参见 管理本地日志(Binlog),PolarDB MySQL 数据库的详情请参见 开启 Binlog。 
使用限制
- 源端数据库的操作限制 - 请勿在结构迁移和全量迁移阶段执行库或表结构变更的 DDL 操作,否则可能造成数据迁移任务中断。 
- 目前数据传输支持 MySQL 数据库 V5.5、V5.6、V5.7 和 V8.0。 
- 数据传输仅支持 MySQL InnoDB 存储引擎,其他类型的引擎无法使用数据迁移功能。 说明- 对于 RDS MySQL 实例类型,数据传输支持 InnoDB 和 X-Engine 存储引擎。 
- 数据传输不支持 MySQL 数据库的索引字段大于 767 个字节(191 个字符)。 
- 数据传输不支持迁移源端 MySQL 数据库的 Cascade 外键。 
- 数据传输仅支持迁移库名、表名和列名为 ASCII 码且不包含特殊字符(包括换行、空格,以及 .|"'`()=;/&\)的对象。 
- 如果主键是 FLOAT 或 DOUBLE 类型,预检查会失败。强烈建议您请勿使用该类型作为主键。 
- 目标端是数据库的情况下,数据传输不支持目标端存在触发器(Trigger)。如果存在触发器,可能导致数据迁移失败。 
- 请确保源端和目标端数据库的时钟同步。 
- RDS MySQL 数据库实例、自建数据库所在的 VPC 必须和 OceanBase 数据库实例位于同一个地域。 
注意事项
- MySQL 数据库宿主机需要具备足够的出口带宽。如果未具备足够的出口带宽,会影响日志解析和数据迁移速度,可能导致同步延迟增大。 
- 如果源端和目标端数据库的 Collation 不同: - 可能导致数据同步不一致。例如,源端 utf8mb4_0900_ai_ci Collation 下两条数据 - A和- A将无法全部写入目标端为 utf8mb4_general_ci Collation 的数据库,从而导致数据丢失。
- 以 VARCHAR 作为主键的表数据校验会不一致。 
 
- 节点之间的时钟不同步,或者电脑终端和服务器之间的时钟不同步,均可能导致延迟时间(增量同步/反向增量)不准确。 - 例如,如果时钟早于标准时间,可能导致延迟时间为负数。如果时钟晚于标准时间,可能导致延迟。 
- 如果 MySQL 数据库需要进行增量解析,则源端 MySQL Server 必须设置 - server_id。
- 在未开启同步 DDL 的情况下,如果您变更目标端的唯一索引,需要重启数据迁移任务,否则可能存在数据不一致的问题。 
- 请确认数据传输对 DECIMAL、FLOAT 或 DOUBLE 等列类型的迁移精度是否符合预期。如果目标端字段类型的精度小于源端字段类型的精度,则可能发生截断现象,导致源端和目标端的数据不一致。 
- 源端为 RDS MySQL 数据库只读实例时,预检查会进行增量日志消费风险提示。 
- 库表汇聚场景下: - 建议您使用匹配规则的方式映射源端和目标端的关系。 
- 建议您自行在目标端创建表结构。如果使用数据传输创建,请在结构迁移步骤跳过部分失败对象。 
 
- 如果源端和目标端的表结构不完全一致,可能会出现数据不一致的情况。目前已知场景如下: - 用户手动创建表结构时,因超出数据传输的支持范围,可能会产生隐式的转换问题,导致源端和目标端列的类型不一致。 
- 目标端的数据长度小于源端的数据长度时,可能出现数据截断的情况,导致源端和目标端的数据不一致。 
 
- 字符集相关说明: - 源端的字符集为 utf8mb3 时,迁移至目标端将转换字符集为 utf8mb4。 
- 目标端为 OceanBase 数据库 MySQL 兼容模式 V4.1.0 及之后版本时,支持 Latin1 字符集的迁移。 
 
- 如果在创建数据迁移任务时,您仅配置了 增量同步,数据传输要求源端数据库的本地增量日志保存 48 小时以上。 - 如果在创建数据迁移任务时,您配置了 全量迁移+增量同步,数据传输要求源端数据库的本地增量日志至少保留 7 天以上。否则数据传输可能因无法获取增量日志而导致数据迁移任务失败,甚至导致源端和目标端数据不一致。 
- 当 MySQL 数据库为双主或多主架构时,请开启 - log_slave_updates参数,否则可能因数据源未接收所有的 Binlog 导致存在数据丢失的风险。
- 如果源端或目标端存在仅大小写不同的表对象,可能会因为源端或目标端大小写不敏感导致数据迁移的结果不符合预期。 
支持的源端和目标端实例类型
下表中,OceanBase 数据库 MySQL 兼容模式简称为 OB_MySQL,支持的实例类型包括 OceanBase 集群实例、OceanBase 租户实例和 Serverless 实例。
| 源端 | 目标端 | 
| MySQL(RDS 实例) | OB_MySQL | 
| MySQL(PolarDB 实例) | OB_MySQL | 
| MySQL(VPC 内自建数据库) | OB_MySQL | 
| MySQL(公网 IP 自建数据库) | OB_MySQL | 
数据类型映射
| MySQL 数据库 | OceanBase 数据库 MySQL 兼容模式 | 
| INTEGER | INTEGER | 
| TINYINT | TINYINT | 
| MEDIUMINT | MEDIUMINT | 
| BIGINT | BIGINT | 
| SMALLINT | SMALLINT | 
| DECIMAL | DECIMAL | 
| NUMERIC | NUMERIC | 
| FLOAT | FLOAT | 
| REAL | REAL | 
| DOUBLE PRECISION | DOUBLE PRECISION | 
| BIT | BIT | 
| CHAR | CHAR | 
| VARCHAR | VARCHAR | 
| BINARY | BINARY | 
| VARBINARY | VARBINARY | 
| BLOB | BLOB | 
| TEXT | TEXT | 
| ENUM | ENUM | 
| SET | SET | 
| JSON | JSON | 
| DATE | DATE | 
| DATETIME | DATETIME | 
| TIMESTAMP | TIMESTAMP | 
| TIME | TIME | 
| YEAR | YEAR | 
| GEOMETRY | GEOMETRY | 
| POINT | POINT | 
| LINESTRING | LINESTRING | 
| POLYGON | POLYGON | 
| MULTIPOINT | MULTIPOINT | 
| MULTILINESTRING | MULTILINESTRING | 
| MULTIPOLYGON | MULTIPOLYGON | 
| GEOMETRYCOLLECTION | GEOMETRYCOLLECTION | 
操作步骤
- 登录 OceanBase 管理控制台 ,购买数据迁移任务。 - 详情请参见 购买数据迁移任务。 
- 在 数据传输 > 数据迁移 页面,单击新购买的数据迁移任务后的 配置。  - 如果您需要引用已有的任务配置信息,可以单击 引用配置。详情请参见 引用数据迁移任务配置。 
- 在 选择源和目标 页面,配置各项参数。 - 参数 - 描述 - 迁移任务名称 - 建议使用中文、数字和字母的组合。名称中不能包含空格,长度不能超过 64 个字符。 - 源端 - 如果您已新建 MySQL 数据源,请从下拉列表中进行选择。如果未新建,请单击下拉列表中的 新建数据源,在右侧对话框进行新建。参数详情请参见 新建 MySQL 数据源。 - 目标端 - 如果您已新建 OceanBase 数据库 MySQL 兼容模式数据源,请从下拉列表中进行选择。如果未新建,请单击下拉列表中的 新建数据源,在右侧对话框进行新建。参数详情请参见 新建 OceanBase 数据源。 - 标签(可选) - 单击文本框,在下拉列表中选择目标标签。您也可以单击 管理标签,进行新建、修改和删除。详情请参见 通过标签管理数据迁移任务。 
- 单击 下一步。在 选择迁移类型 页面,选择 同步拓扑 为 单向同步。 - 数据传输支持 单向同步 和 双向同步。本文为您介绍单向同步的操作,双向同步的详情请参见 配置双向同步任务。 
- 选择当前数据迁移任务的迁移类型。 - 同步拓扑为单向同步时,支持的迁移类型包括 结构迁移、全量迁移、增量同步、全量校验 和 反向增量。  - 迁移类型 - 描述 - 结构迁移 - 结构迁移任务开始后,数据传输会将源库中的数据对象定义(表、索引、约束、注释和视图等)迁移到目标数据库中,并自动过滤临时表。 - MySQL 数据库至 OceanBase 数据库 MySQL 兼容模式的结构迁移支持自动创建目标端不存在的库。 - 全量迁移 - 全量迁移任务开始后,数据传输会将源端库表的存量数据迁移至目标端数据库对应的表中。如果选择 全量迁移,建议您在迁移数据前,使用 - ANALYZE语句收集 MySQL 数据库的统计信息。- 增量同步 - 增量同步任务开始后,数据传输会将源端数据库发生变化的数据(新增、修改或删除)同步至目标端数据库对应的表中。 - 增量同步 包括 DML 同步 和 DDL 同步,您可以根据需求进行自定义配置。详情请参见 自定义配置 DDL/DML。增量同步 的使用限制如下: - 如果您选择了 DDL 同步,当源端数据库发生数据传输不支持的增量 DDL 操作时,会存在数据迁移中断的风险。 
- 如果 DDL 操作为新增列,建议您将该列的属性设置为 NULL,否则会存在数据迁移中断的风险。 
 - 全量校验 - 在全量迁移完成、增量数据同步至目标端并与源端基本追平后,数据传输会自动发起一轮针对源端数据库配置的数据表和目标表的全量数据校验任务。 - 如果选择 全量校验,建议您在全量校验开始前,分别收集 MySQL 数据库和 OceanBase 数据库 MySQL 兼容模式的统计信息。 
- 如果您选择了 增量同步,且 DML 同步 选项中未选择所有的 DML,则数据传输不支持本场景下的全量数据校验。 
- 数据传输仅支持对唯一键表(指具有主键或非空唯一键的表)进行全量数据校验。 
 - 反向增量 - 反向增量任务开始后,可以实时将业务切换后在目标端数据库产生的变更数据回流至源端数据库。 - 通常反向增量会复用增量同步的配置,您也可以根据实际需求进行自定义配置。 
- 单击 下一步。在 选择迁移对象 页面,选择当前数据迁移任务的迁移对象。 - 您可以通过 指定对象 和 匹配规则 两个入口选择迁移对象。本文为您介绍通过 指定对象 方式选择迁移对象的具体操作,配置匹配规则的详情请参见 配置和修改匹配规则 中库到库的通配规则说明和配置方式。 重要- 待迁移的表名和其中的列名不能包含中文字符。 
- 当数据库的库名或表名存在“$$”字符时,会影响数据迁移任务的创建。 
- 如果您在 选择迁移类型 步骤已勾选 DDL 同步,建议通过匹配规则方式选择迁移对象,以确保所有符合迁移对象规则的新增对象都将被同步。如果您通过指定对象方式选择迁移对象,则新增对象或重命名后的对象将不会被同步。 
  - 在 选择迁移对象 区域,选中 指定对象。 
- 在 选择迁移范围 区域的 源端对象 列表选中需要迁移的对象。您可以选择一个或多个库的表、视图作为迁移对象。 
- 单击 >,将其添加至 目标端对象 列表中。 
 - 数据传输支持通过文本导入对象,并支持对目标端对象进行重命名、设置行过滤、查看列信息,以及移除单个或全部迁移对象等操作。 说明- 通过 匹配规则 方式选择迁移对象时,重命名能力由匹配规则语法覆盖,操作处仅支持设置过滤条件。详情请参见 配置和修改匹配规则。 - 操作 - 描述 - 导入对象 - 在选择区域的右侧列表中,单击右上角的 导入对象。 
- 在对话框中,单击 确定。 重要- 导入会覆盖之前的操作选择,请谨慎操作。 
- 在 导入迁移对象 对话框中,导入需要迁移的对象。 - 您可以通过导入 CSV 文件的方式进行库表重命名、设置行过滤条件等操作。详情请参见 下载和导入迁移对象配置。 
- 单击 检验合法性。 - 完成迁移对象导入后,请先检验合法性。目前暂不支持列字段映射。 
- 通过检验后,单击 确定。 
 - 重命名 - 数据传输支持重命名迁移对象的名称,详情请参见 数据库库表重命名。 - 设置 - 数据传输支持 - WHERE条件实现行过滤,详情请参见 SQL 条件过滤数据。- 您还可以在 查看列 区域,查看迁移对象的列信息。 - 移除/全部移除 - 数据传输支持在数据映射时,对暂时选中到目标端的单个或多个对象进行移除操作。 - 移除单个迁移对象 - 在选择区域的右侧列表中,鼠标悬停至目标对象,单击显示的 移除,即可移除该迁移对象。 
- 移除全部迁移对象 - 在选择区域的右侧列表中,单击右上角的 全部移除。在对话框中,单击 确定,即可移除全部迁移对象。 
 
- 单击 下一步。在 迁移选项 页面,配置各项参数。 - 全量迁移 - 在 选择迁移类型 页面,选中 单向同步 > 全量迁移,才会显示下述参数。  - 参数 - 描述 - 读取并发配置 - 该参数用于配置全量迁移阶段从源端读取数据的并发数,最大限制为 512 并发数过高可能会造成源端压力过大,影响业务。 - 写入并发配置 - 该参数用于配置全量迁移阶段往目标端写入数据的并发数,最大限制为 512。并发数过高可能会造成目标端压力过大,影响业务。 - 全量迁移速率限制 - 您可以根据实际需求决定是否开启全量迁移速率限制。如果开启,请设置 RPS(全量迁移阶段每秒最多可以迁移至目标端的数据行数的最大值限制)和 BPS(全量迁移阶段每秒最多可以迁移至目标端的数据量的最大值限制)。 说明- 此处设置的 RPS 和 BPS 仅作为限速限流能力,全量迁移实际可以达到的性能受限于源端、目标端、实例规格配置等因素的影响。 - 目标端表对象存在记录时处理策略 - 处理策略包括 忽略 和 停止迁移: - 选择 忽略:当目标端表对象存在数据时,如果原数据与写入数据冲突,数据传输采用将冲突数据记录日志,保留原数据不变的策略进行数据写入。 重要- 选择 忽略,全量校验将使用 IN 模式拉取数据,无法校验目标端存在源端没有的数据的场景,并且校验性能会有一定程度降级。 
- 选择默认值 停止迁移:当目标端表对象存在数据时,全量迁移会报错不允许迁移,请处理好目标端数据后再继续迁移。 重要- 如果出错后单击恢复,数据传输将忽略该配置选项,继续迁移表数据,请谨慎操作。 
 - 是否允许索引后置 - 您可以设置是否允许全量数据迁移完成后再创建索引,索引后置功能能够缩短全量迁移耗时。选择索引后置的注意事项,请参见表格下方的说明。 重要- 在 选择迁移类型 页面同时选中 结构迁移 和 全量迁移,才会显示该参数。 
- 仅非唯一键索引支持后置创建。 
- 执行索引时,如果目标端 OceanBase 数据库遇到下述报错,数据传输会进行忽略,默认索引创建成功,不会再重复创建。 - OceanBase 数据库 MySQL 兼容模式报错 - Duplicate key name。
- OceanBase 数据库 Oracle 兼容模式报错 - name is already used by an existing object。
 
 - 当目标端为 OceanBase 数据库,并且此处选择 允许 后,请进行下述配置: - 单条索引 DDL 并发配置:并行度越高,资源消耗越大,迁移速度越快。 
- 最大并发索引 DDL 数量配置:同一时刻,系统调用的后置索引 DDL 数量的最大值限制。 
 - 允许索引后置的情况下,建议您根据 OceanBase 数据库的硬件条件和当前业务流量情况,通过黑屏客户端工具调整以下业务租户参数。 - // 文件内存缓冲区限制 alter system set _temporary_file_io_area_size = '10' tenant = 'xxx'; // V4.x 关闭限流 alter system set sys_bkgd_net_percentage = 100;
- 增量同步 - 在 选择迁移类型 页面,选中 单向同步 > 增量同步,才会显示下述参数。  - 参数 - 描述 - 写入并发配置 - 该参数用于配置增量同步阶段往目标端写入数据的并发数,最大限制为 512。并发数过高可能会造成目标端压力过大,影响业务。 - 增量同步速率限制 - 您可以根据实际需求决定是否开启增量同步速率限制。如果开启,请设置 RPS(增量同步阶段每秒最多可以同步至目标端的数据行数的最大值限制)和 BPS(增量同步阶段每秒最多可以同步至目标端的数据量的最大值限制)。 说明- 此处设置的 RPS 和 BPS 仅作为限速限流能力,增量同步实际可以达到的性能受限于源端、目标端、实例规格配置等因素的影响。 - 增量同步起始位点 - 如果选择迁移类型时已选择 全量迁移,则不显示该参数。 
- 如果选择迁移类型时未选择 全量迁移,但选择了 增量同步,请在此处指定迁移某个时间节点之后的数据,默认为当前系统时间。详情请参见 设置增量同步位点。 
 
- 反向增量 - 在 选择迁移类型 页面,选中 单向同步 > 反向增量,才会显示该区域的参数。反向增量的配置参数默认 复用增量同步配置。  - 您也可以取消复用增量同步配置,根据实际需求进行配置。 - 参数 - 描述 - 写入并发配置 - 该参数用于配置反向增量阶段往源端写入数据的并发数,最大限制为 512。并发数过高可能会造成源端压力过大,影响业务。 - 反向增量速率限制 - 您可以根据实际需求决定是否开启反向增量速率限制。如果开启,请设置 RPS(反向增量同步阶段每秒最多可以同步至源端的数据行数的最大值限制)和 BPS(反向增量同步阶段每秒最多可以同步至源端的数据量的最大值限制)。 说明- 此处设置的 RPS 和 BPS 仅作为限速限流能力,反向增量同步实际可以达到的性能受限于源端、目标端、实例规格配置等因素的影响。 - 增量同步起始位点 - 如果选择迁移类型时已选择 全量迁移,则不显示该参数。 
- 如果选择迁移类型时未选择 全量迁移,但选择了 增量同步,则默认以正向切换(如有)为准,不支持修改。 
 
- 高级选项 - 当目标端 OceanBase 数据库 MySQL 兼容模式为 V4.3.0 及之后版本,并且在 选择迁移类型 页面,选中 结构迁移 或 增量同步 > DDL 同步,才会显示该区域的参数。  - 目标端表对象存储类型包括 默认、行存、列存 和 行列混存,该配置用于确定结构迁移或增量同步时目标端表对象的存储类型,详情请参见 default_table_store_format。 说明- 默认 选项是根据目标端参数配置自适应其他选项,是结构迁移的表对象或增量 DDL 的新增表对象根据设置的存储类型写入对应的结构。 
 
- 单击 预检查,系统对数据迁移任务进行预检查。 - 在 预检查 环节,数据传输会检查数据库用户的读写权限、数据库的网络连接等是否符合要求。全部检查任务均通过后才能启动数据迁移任务。如果预检查报错: - 您可以在排查并处理问题后,重新执行预检查,直至预检查成功。 
- 您也可以单击错误预检查项操作列中的 跳过,会弹出对话框提示您跳过本操作的具体影响,确认可以跳过后,请单击对话框中的 确定。 
 
- 预检查成功后,单击 启动任务。 - 如果您暂时无需启动任务,请单击 保存。后续您只能在 迁移任务列表 页面手动启动任务或通过批量操作启动任务。批量操作的详情请参见 批量操作数据迁移任务。 - 数据传输支持在数据迁移任务运行过程中修改迁移对象及其行过滤条件,详情请参见 查看和修改迁移对象及其过滤条件。数据迁移任务启动后,会根据所选择的迁移类型依次执行,详情请参见 查看迁移详情。