自建TiDB同步至PolarDB-X 2.0

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

本文介绍如何使用数据传输服务DTS(Data Transmission Service),将TiDB数据库的数据同步至PolarDB-X 2.0实例。

前提条件

  • 已创建存储空间大于TiDB数据库已占用存储空间的目标PolarDB-X 2.0实例,详情请参见创建实例

  • 同步实例默认包含增量数据同步,您还需要执行相关准备工作以采集TiDB数据库的增量变更数据,详情请参见准备工作

准备工作

TiDB的增量数据变更有如下两种采集方式,请根据实际情况选择。

使用TiDB Binlog

说明

为减少网络延迟对数据同步的影响,Pump组件、Drainer组件和Kafka集群所部署的服务器需要与源库所属的服务器在同一内网中。

  1. 准备Kafka集群(二选一)。

    • 部署自建Kafka集群,详情请参见Apache Kafka官网

      警告

      为保障Kafka集群可以正常接收TiDB数据库产生的较大的Binlog数据,请适当将Broker组件中的message.max.bytesreplica.fetch.max.bytes参数以及Consumer组件中的fetch.message.max.bytes参数对应的值调大,详情请参见Kafka配置说明

    • 使用阿里云消息队列Kafka,详情请参见快速入门

      说明

      为保障正常通信和减少网络延迟对增量数据同步的影响,部署阿里云消息队列Kafka实例时,需要配置和源库服务器相同的专有网络。

  2. 在自建Kafka集群或阿里云消息队列Kafka实例中创建Topic。

    重要

    创建的Topic应当只包含一个分区,以确保增量数据可以被复制到ID0的分区。

  3. 部署PumpDrainer组件,详情请参见TiDB Binlog集群部署

  4. 修改Drainer组件的配置文件,设置输出为Kafka,详情请参见Kafka自定义开发

    说明

    请确保TiDB数据库所在的服务器能够正常连接到Kafka集群。

  5. DTS服务器的IP地址段加入至TiDB数据库的白名单安全设置中,具体IP地址段信息请参见添加DTS服务器的IP地址段

使用TiDB CDC

  1. 准备Kafka集群(二选一)。

    • 部署自建Kafka集群,详情请参见Apache Kafka官网

      警告

      为保障Kafka集群可以正常接收TiDB数据库产生的较大的Binlog数据,请适当将Broker组件中的message.max.bytesreplica.fetch.max.bytes参数以及Consumer组件中的fetch.message.max.bytes参数对应的值调大,详情请参见Kafka配置说明

    • 使用阿里云消息队列Kafka,详情请参见快速入门

      说明

      为保障正常通信和减少网络延迟对增量数据同步的影响,部署阿里云消息队列Kafka实例时,需要配置和源库服务器相同的专有网络。

  2. 在自建Kafka集群或阿里云消息队列Kafka实例中创建Topic。

    重要

    创建的Topic应当只包含一个分区,以确保增量数据可以被复制到ID0的分区。

  3. 安装TiCDC组件,详情请参见部署TiCDC

    说明

    建议使用TiUP在原有TiDB集群上新增或扩容TiCDC组件。

  4. 将增量数据复制到Kafka,详情请参见同步数据到Kafka

    说明
    • 请确保TiDB数据库所在的服务器能够正常连接到Kafka集群。

    • 建议第一行命令使用tiup cdc cli changefeed create \

注意事项

类型

说明

源库限制

  • 带宽要求:源库所属的服务器需具备足够的出口带宽,否则将影响数据同步速率。

  • 待同步的表需具备主键或唯一约束,且字段具有唯一性,否则可能会导致目标数据库中出现重复数据。

  • 如同步对象为表级别,且需进行编辑(如表列名映射),则单次同步任务待同步的表数量超过1000时,建议您拆分待同步的表,分批配置为多个任务,或者配置整库的同步任务,否则任务提交后可能会显示请求报错。

  • 您需要部署Kafka集群以及TiDB数据库的相关组件,以采集TiDB数据库的增量变更数据。

  • 在库表结构同步和全量同步阶段,请勿执行库或表结构变更的DDL操作,否则会导致数据同步任务失败。

  • 由于TiDB数据库的元数据中未保存前缀索引的长度,因此在数据同步至目标库后,前缀索引的长度会丢失,从而可能会导致实例运行失败。若待同步的表包含前缀索引,请自行手动修复前缀索引的长度。

其他限制

  • 在增量数据同步过程中,DTS仅支持从目标TopicID0的分区获取数据。

  • DTS实例创建成功后,请务必及时在源库执行相应的变更或插入测试数据,以更新DTS实例的位点信息。否则,DTS实例可能会因为延迟过大而失败。

  • 在进行全量数据同步时,DTS将会占用源库和目标库一定的读写资源,可能会导致数据库的负载上升。因此建议在执行数据同步前评估源库和目标库的性能,并在业务低峰期执行数据同步(例如源库和目标库的CPU负载在30%以下)。

  • 由于全量数据同步会并发执行INSERT操作,导致目标数据库的表产生碎片,因此全量同步完成后目标数据库的表存储空间会大于源库的表存储空间。

  • DTS实例运行期间,若有除DTS外的数据写入目标库,则可能会导致源库与目标库数据不一致,甚至会导致DTS实例运行失败。

  • 对于数据类型为FLOATDOUBLE的列,DTS会通过ROUND(COLUMN,PRECISION)来读取这两类列的值。如果没有明确定义其精度,DTS默认对FLOAT的同步精度为38位,对DOUBLE的同步精度为308位,请确认同步精度是否符合业务预期。

  • DTS将尝试恢复在七天内运行失败的实例。因此,在业务切换至目标实例之前,请务必结束或释放该实例,或回收DTS访问目标数据库所使用账号的写权限,以避免该实例被自动恢复后导致目标数据库的数据被覆盖。

  • 若实例运行失败,DTS技术支持人员将在8小时内尝试恢复该实例。在恢复失败实例的过程中,可能会对该实例进行重启、调整参数等操作。

    说明

    在调整参数时,仅会修改DTS实例的参数,不会对数据库中的参数进行修改。可能修改的参数,包括但不限于修改实例参数中的参数。

费用说明

同步类型链路配置费用
库表结构同步和全量数据同步不收费。
增量数据同步收费,详情请参见计费概述

支持增量同步的SQL操作

操作类型

SQL操作语句

DML

INSERT、UPDATE、DELETE

DDL

CREATE TABLE、DROP TABLE、ALTER TABLE、RENAME TABLE、TRUNCATE TABLE、CREATE VIEW、ALTER VIEW

重要

RENAME TABLE操作可能导致同步数据不一致。例如同步对象只包含某个表,如果同步过程中源实例对该表执行了重命名操作,那么该表的数据将不会同步到目标库。为避免该问题,您可以在配置任务时将该表所属的整个数据库作为同步对象,且确保RENAME TABLE操作前后的表所属的数据库均在同步对象中。

数据库账号的权限要求

数据库

权限要求

账号创建及授权方法

TiDB数据库

SHOW VIEW和待同步对象的SELECT权限

权限管理

PolarDB-X 2.0实例

目标库的读写权限

管理数据库账号

操作步骤

  1. 进入目标地域的同步任务列表页面(二选一)。

    通过DTS控制台进入

    1. 登录数据传输服务DTS控制台

    2. 在左侧导航栏,单击数据同步

    3. 在页面左上角,选择同步实例所属地域。

    通过DMS控制台进入

    说明

    实际操作可能会因DMS的模式和布局不同,而有所差异。更多信息,请参见极简模式控制台自定义DMS界面布局与样式

    1. 登录DMS数据管理服务

    2. 在顶部菜单栏中,选择Data + AI > 数据传输(DTS) > 数据同步

    3. 同步任务右侧,选择同步实例所属地域。

  2. 单击创建任务,进入任务配置页面。

  3. 配置源库及目标库信息。

    类别

    配置

    说明

    任务名称

    DTS会自动生成一个任务名称,建议配置具有业务意义的名称(无唯一性要求),便于后续识别。

    源库信息

    选择已有连接信息

    • 若您需要使用已录入系统(新建或保存)的数据库实例,请在下拉列表中选择所需的数据库实例,下方的数据库信息将自动进行配置。

      说明

      DMS控制台的配置项为选择DMS数据库实例

    • 若您未将数据库实例录入到系统,或无需使用已录入系统的数据库实例,则需要手动配置下方的数据库信息。

    数据库类型

    选择TiDB

    接入方式

    请根据TiDB数据库的部署位置进行选择,本示例选择ECS自建数据库

    说明

    当自建数据库为其他接入方式时,您还需要执行相应的准备工作

    实例地区

    选择TiDB数据库所属ECS实例的地域。

    ECS实例ID

    选择TiDB数据库所属ECS实例的ID,默认为4000

    端口

    填入TiDB数据库的服务端口。

    数据库账号

    填入TiDB的数据库账号,权限要求请参见数据库账号的权限要求

    数据库密码

    填入该数据库账号对应的密码。

    是否做增量迁移

    默认选择为,且无法修改。

    说明

    若您无需同步TiDB数据库的增量数据,请创建迁移实例。更多信息,请参见自建TiDB迁移至PolarDB-X 2.0

    Kafka集群类型

    请根据Kafka集群的部署位置进行选择,本示例选择ECS自建数据库

    说明

    若您选择为专线/VPN网关/智能网关,还需要选择已和源端数据库联通的VPC,并填写域名或IP地址

    Kafka数据来源组件

    请根据准备工作选择使用TiDB的默认binlog格式使用TiDB CDC模式的Canal-JSON格式

    ECS实例ID

    选择Kafka集群所属ECS实例的ID。

    端口

    填入Kafka集群的服务端口。

    Kafka集群账号

    填入Kafka集群的用户名和密码,若Kafka集群未开启验证则无需填写。

    Kafka集群密码

    Kafka版本

    根据Kafka集群的版本,选择对应的版本信息。

    说明

    Kafka集群的版本为1.0及以上版本,请选择1.0

    连接方式

    根据业务及安全需求,选择非加密连接SCRAM-SHA-256

    Topic

    选择增量数据所在的Topic。

    目标库信息

    选择已有连接信息

    • 若您需要使用已录入系统(新建或保存)的数据库实例,请在下拉列表中选择所需的数据库实例,下方的数据库信息将自动进行配置。

      说明

      DMS控制台的配置项为选择DMS数据库实例

    • 若您未将数据库实例录入到系统,或无需使用已录入系统的数据库实例,则需要手动配置下方的数据库信息。

    数据库类型

    选择PolarDB-X 2.0

    接入方式

    选择云实例

    实例地区

    选择目标PolarDB-X 2.0实例所属的地域。

    实例ID

    选择目标PolarDB-X 2.0实例的ID。

    数据库账号

    填入目标PolarDB-X 2.0实例的数据库账号,权限要求请参见数据库账号的权限要求

    数据库密码

    填入该数据库账号对应的密码。

  4. 配置完成后,在页面下方单击测试连接以进行下一步,并在弹出的DTS服务器访问授权对话框单击测试连接

    说明

    请确保DTS服务的IP地址段能够被自动或手动添加至源库和目标库的安全设置中,以允许DTS服务器的访问。更多信息,请参见添加DTS服务器的IP地址段

  5. 配置任务对象。

    1. 对象配置页面,配置待同步的对象。

      配置

      说明

      同步类型

      固定选中增量同步。默认情况下,您还需要同时选中库表结构同步全量同步。预检查完成后,DTS会将源实例中待同步对象的全量数据在目标集群中初始化,作为后续增量同步数据的基线数据。

      目标已存在表的处理模式

      • 预检查并报错拦截:检查目标数据库中是否有同名的表。如果目标数据库中没有同名的表,则通过该检查项目;如果目标数据库中有同名的表,则在预检查阶段提示错误,数据同步任务不会被启动。

        说明

        如果目标库中同名的表不方便删除或重命名,您可以更改该表在目标库中的名称,请参见库表列名映射

      • 忽略报错并继续执行:跳过目标数据库中是否有同名表的检查项。

        警告

        选择为忽略报错并继续执行,可能导致数据不一致,给业务带来风险,例如:

        • 表结构一致的情况下,如在目标库遇到与源库主键或唯一键的值相同的记录:

          • 全量期间,DTS会保留目标集群中的该条记录,即源库中的该条记录不会同步至目标数据库中。

          • 增量期间,DTS不会保留目标集群中的该条记录,即源库中的该条记录会覆盖至目标数据库中。

        • 表结构不一致的情况下,可能会导致无法初始化数据、只能同步部分列的数据或同步失败,请谨慎操作。

      目标库对象名称大小写策略

      您可以配置目标实例中同步对象的库名、表名和列名的英文大小写策略。默认情况下选择DTS默认策略,您也可以选择与源库、目标库默认策略保持一致。更多信息,请参见目标库对象名称大小写策略

      源库对象

      源库对象框中单击待同步对象,然后单击向右将其移动至已选择对象框。

      说明

      同步对象的选择粒度为库或表。

      已选择对象

      • 如需设置待同步对象在目标实例中的名称,或指定目标实例中接收数据的对象,请右击已选择对象中的同步对象进行修改。设置方式,请参见库表列名映射

      • 如需移除已选择的同步对象,请在已选择对象框中单击待同步的对象,然后单击image将其移动到源库对象框。

      说明
      • 如需设置WHERE条件过滤数据,请在已选择对象中右击待同步的表,在弹出的对话框中设置过滤条件。设置方法,请参见设置过滤条件

      • 如果使用了对象名映射功能,可能会导致依赖这个对象的其他对象同步失败。

    2. 单击下一步高级配置,进行高级参数配置。

      配置

      说明

      源库、目标库无法连接后的重试时间

      在同步任务启动后,若源库或目标库连接失败则DTS会报错,并会立即进行持续的重试连接,默认持续重试时间为720分钟,您也可以在取值范围(10~1440分钟)内自定义重试时间,建议设置30分钟以上。如果DTS在设置的重试时间内重新连接上源库、目标库,同步任务将自动恢复。否则,同步任务将会失败。

      说明
      • 针对同源或者同目标的多个DTS实例,如DTS实例ADTS实例B,设置网络重试时间时A设置30分钟,B设置60分钟,则重试时间以低的30分钟为准。

      • 由于连接重试期间,DTS将收取任务运行费用,建议您根据业务需要自定义重试时间,或者在源和目标库实例释放后尽快释放DTS实例。

      源库、目标库出现其他问题后的重试时间

      在同步任务启动后,若源库或目标库出现非连接性的其他问题(如DDLDML执行异常),则DTS会报错并会立即进行持续的重试操作,默认持续重试时间为10分钟,您也可以在取值范围(1~1440分钟)内自定义重试时间,建议设置10分钟以上。如果DTS在设置的重试时间内相关操作执行成功,同步任务将自动恢复。否则,同步任务将会失败。

      重要

      源库、目标库出现其他问题后的重试时间的值需要小于源库、目标库无法连接后的重试时间的值。

      是否限制全量同步速率

      在全量同步阶段,DTS将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升。您可以根据实际情况,选择是否对全量同步任务进行限速设置(设置每秒查询源库的速率QPS每秒全量迁移的行数RPS每秒全量迁移的数据量(MB)BPS),以缓解目标库的压力。

      说明

      是否限制增量同步速率

      您也可以根据实际情况,选择是否对增量同步任务进行限速设置(设置每秒增量同步的行数RPS每秒增量同步的数据量(MB)BPS),以缓解目标库的压力。

      环境标签

      您可以根据实际情况,选择用于标识实例的环境标签。本示例无需选择。

      配置ETL功能

      选择是否配置ETL功能。关于ETL的更多信息,请参见什么是ETL

      监控告警

      是否设置告警,当同步失败或延迟超过阈值后,将通知告警联系人。

  6. 保存任务并进行预检查。

    • 若您需要查看调用API接口配置该实例时的参数信息,请将鼠标光标移动至下一步保存任务并预检查按钮上,然后单击气泡中的预览OpenAPI参数

    • 若您无需查看或已完成查看API参数,请单击页面下方的下一步保存任务并预检查

    说明
    • 在同步作业正式启动之前,会先进行预检查。只有预检查通过后,才能成功启动同步作业。

    • 如果预检查失败,请单击失败检查项后的查看详情,并根据提示修复后重新进行预检查。

    • 如果预检查产生警告:

      • 对于不可以忽略的检查项,请单击失败检查项后的查看详情,并根据提示修复后重新进行预检查。

      • 对于可以忽略无需修复的检查项,您可以依次单击点击确认告警详情确认屏蔽确定重新进行预检查,跳过告警检查项重新进行预检查。如果选择屏蔽告警检查项,可能会导致数据不一致等问题,给业务带来风险。

  7. 购买实例。

    1. 预检查通过率显示为100%时,单击下一步购买

    2. 购买页面,选择数据同步实例的计费方式、链路规格,详细说明请参见下表。

      类别

      参数

      说明

      信息配置

      计费方式

      • 预付费(包年包月):在新建实例时支付费用。适合长期需求,价格比按量付费更实惠,且购买时长越长,折扣越多。

      • 后付费(按量付费):按小时扣费。适合短期需求,用完可立即释放实例,节省费用。

      资源组配置

      实例所属的资源组,默认为default resource group。更多信息,请参见什么是资源管理

      链路规格

      DTS为您提供了不同性能的同步规格,同步链路规格的不同会影响同步速率,您可以根据业务场景进行选择。更多信息,请参见数据同步链路规格说明

      订购时长

      在预付费模式下,选择包年包月实例的时长和数量,包月可选择1~9个月,包年可选择1年、2年、3年和5年。

      说明

      该选项仅在付费类型为预付费时出现。

    3. 配置完成后,阅读并勾选《数据传输(按量付费)服务条款》

    4. 单击购买并启动,并在弹出的确认对话框,单击确定

      您可在数据同步界面查看具体任务进度。