PolarDB PostgreSQL版间的迁移

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

通过数据传输服务DTS(Data Transmission Service),可以实现PolarDB PostgreSQL版集群间的迁移。

前提条件

  • 已创建源和目标PolarDB PostgreSQL版数据库集群,详情请参见创建PolarDB PostgreSQL版数据库集群

  • 已将源和目标PolarDB PostgreSQL版集群的wal_level参数值设置为logical。设置方式,请参见设置集群参数

  • 目标数据库的存储空间,需大于源数据库已使用的存储空间。

注意事项

说明
  • 在库表结构同步过程中,DTS会将源数据库中的外键同步到目标数据库。

  • 在全量同步和增量同步过程中,DTS会以Session级别暂时禁用约束检查以及外键级联操作。若任务运行时源库存在级联更新、删除操作,可能会导致数据不一致。

类型

说明

源库限制(PolarDB PG 11)

  • PolarDB PostgreSQL版集群中,源库中待同步的表需具备主键或非空唯一索引。

  • 若源库有长事务,且集群包含增量同步任务,则可能会导致源库长事务提交前的预写日志WAL(Write-Ahead Logging)无法清理而堆积,从而造成源库磁盘空间不足。

  • 为保障同步任务的正常进行,避免主备切换导致的逻辑订阅中断,需要PolarDB PostgreSQL版引擎开启Logical Replication Slot Failover。设置方式,请参见逻辑复制槽故障转移(Logical Replication Slot Failover)

其他限制

  • 全量数据初始化时将占用源库和目标库一定的读写资源,会导致数据库的负载上升,因此在执行数据同步前需评估源库和目标库的性能,建议在业务低峰期执行数据同步。

  • 全量初始化会并发执行INSERT操作,导致目标数据库的表产生碎片,因此全量数据初始化完成后目标集群的表空间比源集群的表空间大。

  • 在DTS同步期间,不允许有除DTS外的数据写入目标库,否则会导致源库与目标库数据不一致。

  • 若DTS正向和反向同步任务均同步了某张表,且正向同步任务同步了该表的全量和增量数据,则反向同步任务只同步该表的增量数据。

  • 同步期间,DTS会在源库中创建前缀为dts_sync_的replication slot用于复制数据。通过该replication slot,DTS可以获取源库15分钟内的增量日志。

    说明

    当释放同步任务或同步失败时,DTS会主动清理该replication slot;如果自建PostgreSQL发生了主备切换,则需要您登录备库来手动清理。

  • DTS的校验对象为数据内容,暂不支持Sequence等元数据的校验,您需要自行校验。

  • 由于业务切换到目标端后,新写入的Sequence不会按照源库的Sequence最大值作为初始值去递增,您需要在业务切换前,在源库中查询对应Sequence的最大值,然后在目标库中将其作为对应Sequence的初始值。查询源库Sequence值的相关命令如下:

    do language plpgsql $$
    declare
     nsp name;
     rel name;
     val int8;
    begin
     for nsp,rel in select nspname,relname from pg_class t2 , pg_namespace t3 where t2.relnamespace=t3.oid and t2.relkind='S'
     loop
     execute format($_$select last_value from %I.%I$_$, nsp, rel) into val;
     raise notice '%',
     format($_$select setval('%I.%I'::regclass, %s);$_$, nsp, rel, val+1);
     end loop;
    end;
    $$;

费用说明

同步类型

链路配置费用

库表结构同步和全量数据同步

不收费。

增量数据同步

收费,详情请参见计费概述

支持同步的SQL操作

操作类型

SQL操作语句

DML

INSERT、UPDATE、DELETE

DDL

重要
  • 源数据库账号为高权限账号时,同步任务支持如下DDL操作:

    • CREATE TABLE、DROP TABLE

    • ALTER TABLE(包括RENAME TABLE、ADD COLUMN、ADD COLUMN DEFAULT、ALTER COLUMN TYPE、DROP COLUMN、ADD CONSTRAINT、ADD CONSTRAINT CHECK、ALTER COLUMN DROP DEFAULT)

    • TRUNCATE TABLE(源库PolarDB PostgreSQL版的数据库引擎需为PostgreSQL 11及以上版本)

    • CREATE INDEX ON TABLE

      重要
      • 不支持同步DDL中包含的附加信息,如CASCADE或RESTRICT等。

      • 不支持同步使用SET session_replication_role = replica命令的会话中的DDL。

      • 若源库单次提交的多条SQL中同时包含DML和DDL,则该DDL不会被同步。

      • 若源库单次提交的多条SQL中包含非同步对象的DDL,则该DDL不会被同步。

配置步骤

  1. 登录新版DTS同步任务的列表页面

  2. 在页面左上角,选择同步实例所属地域。

  3. 单击创建任务,配置源库及目标库信息。

    说明

    数据库类型都选择PolarDB for PostgreSQL

    类别

    配置

    说明

    任务名称

    DTS会自动生成一个任务名称,建议配置具有业务意义的名称(无唯一性要求),便于后续识别。

    源库信息(PolarDB PG 11)

    选择已有的数据库实例

    您可以按实际需求,选择是否使用已有实例。

    • 如使用已有实例,下方数据库信息将自动填入,您无需重复输入。

    • 如不使用已有实例,您需要输入下方的数据库信息。

    数据库类型

    选择PolarDB for PostgreSQL

    接入方式

    选择云实例

    实例地区

    选择源PolarDB PostgreSQL版集群所属地域。

    是否跨阿里云账号

    本示例为同一阿里云账号间同步,选择不跨账号

    实例ID

    选择源PolarDB PostgreSQL版集群ID。

    数据库名称

    填入源PolarDB PostgreSQL版数据库的名称。

    数据库账号

    填入源PolarDB PostgreSQL版的数据库账号。

    数据库密码

    填入该数据库账号对应的密码。

    目标库信息(PolarDB PG 14)

    选择已有的数据库实例

    您可以按实际需求,选择是否使用已有实例。

    • 如使用已有实例,下方数据库信息将自动填入,您无需重复输入。

    • 如不使用已有实例,您需要输入下方的数据库信息。

    数据库类型

    选择PolarDB for PostgreSQL

    接入方式

    选择云实例

    实例地区

    选择目标PolarDB PostgreSQL版集群所属地域。

    实例ID

    选择目标PolarDB PostgreSQL版集群ID。

    数据库名称

    填入目标PolarDB PostgreSQL版数据库的名称。

    数据库账号

    填入目标PolarDB PostgreSQL版的高权限数据库账号,账号创建及授权方式,请参见创建数据库账号

    数据库密码

    填入该数据库账号对应的密码。

  4. 配置完成后,单击页面下方的测试连接以进行下一步

    DTS任务会自动将对应地区DTS服务的IP地址添加到阿里云数据库实例的白名单中。

    警告
    DTS自动添加或您手动添加DTS服务的公网IP地址段可能会存在安全风险,一旦使用本产品代表您已理解和确认其中可能存在的安全风险,并且需要您做好基本的安全防护,包括但不限于加强账号密码强度防范、限制各网段开放的端口号、内部各API使用鉴权方式通信、定期检查并限制不需要的网段,或者使用通过内网(专线/VPN网关/智能网关)的方式接入。
  5. 配置任务对象及高级配置。

    配置

    说明

    同步类型

    固定选中增量同步。默认情况下,您还需要同时选中库表结构同步全量同步。预检查完成后,DTS会将源实例中待同步对象的全量数据在目标集群中初始化,作为后续增量同步数据的基线数据。

    说明

    同步类型需要全选。

    同步拓扑

    • 单向拓扑:只建立源库到目标库的单向同步链路,包括存量数据及增量同步链路。

    • 双向同步:建立源库到目标库的双向同步链路,同时进行源库到目标库的增量同步,以及目标库到源库的反向回流。

    说明

    反向回流只支持数据同步,不支持DDL操作。

    目标已存在表的处理模式

    • 预检查并报错拦截:检查目标数据库中是否有同名的表。如果目标数据库中没有同名的表,则通过该检查项目;如果目标数据库中有同名的表,则在预检查阶段提示错误,数据同步任务不会被启动。

      说明

      如果目标库中同名的表不方便删除或重命名,您可以更改该表在目标库中的名称,请参见库表列名映射

    • 忽略报错并继续执行:跳过目标数据库中是否有同名表的检查项。

      警告

      选择为忽略报错并继续执行,可能导致数据不一致,给业务带来风险,例如:

      • 结构一致的情况下,如在目标库遇到与源库主键或唯一键的值相同的记录:

        • 全量期间,DTS会保留目标集群中的该条记录,即源库中的该条记录不会同步至目标数据库中。

        • 增量期间,DTS不会保留目标集群中的该条记录,即源库中的该条记录会覆盖至目标数据库中。

      • 表结构不一致的情况下,可能会导致无法初始化数据、只能同步部分列的数据或同步失败,请谨慎操作。

    目标库对象名称大小写策略

    您可以配置目标实例中同步对象的库名、表名和列名的英文大小写策略。默认情况下选择DTS默认策略,您也可以选择与源库、目标库默认策略保持一致。更多信息,请参见目标库对象名称大小写策略

    源库对象

    源库对象框中单击待同步对象,然后单击向右将其移动至已选择对象框。

    说明

    同步对象选择的粒度为库、表、列。若选择的同步对象为表或列,其他对象(如视图、触发器、存储过程)不会被同步至目标库。

    已选择对象

    • 如需更改单个同步对象在目标实例中的名称,请右击已选择对象中的同步对象,设置方式,请参见库表列名映射

    • 如需批量更改同步对象在目标实例中的名称,请单击已选择对象方框右上方的批量编辑,设置方式,请参见库表列名映射

    说明
    • 如需按库或表级别选择同步的SQL操作,请在已选择对象中右击待同步对象,并在弹出的对话框中选择所需同步的SQL操作。支持的操作请参见支持同步的SQL操作

    • 如需设置WHERE条件过滤数据,请在已选择对象中右击待同步的表,在弹出的对话框中设置过滤条件。设置方法请参见设置过滤条件

  6. 单击下一步高级配置,进行高级配置。

    配置

    说明

    数据校验方式

    • 全量校验:对全部的数据进行校验。

    • 增量校验:只校验数据传输中增量部分的数据。

    选择调度该任务的专属集群

    DTS专属集群是在某一地域由多台相同规格的ECS虚拟机组成的集群,用于管理和配置DTS迁移、同步和订阅任务。相比DTS共享集群,DTS专属集群具有资源独享、稳定性更好、性能更优和成本更低的特点。详情请参见什么是DTS专属集群

    设置告警

    是否设置告警,当同步失败或延迟超过阈值后,将通知告警联系人。

    源库、目标库无法连接后的重试时间

    在同步任务启动后,若源库或目标库连接失败则DTS会报错,并会立即进行持续的重试连接,默认持续重试时间为720分钟,您也可以在取值范围(10~1440分钟)内自定义重试时间,建议设置30分钟以上。如果DTS在设置的重试时间内重新连接上源库、目标库,同步任务将自动恢复。否则,同步任务将会失败。

    说明
    • 针对同源或者同目标的多个DTS实例,如DTS实例A和DTS实例B,设置网络重试时间时A设置30分钟,B设置60分钟,则重试时间以低的30分钟为准。

    • 由于连接重试期间,DTS将收取任务运行费用,建议您根据业务需要自定义重试时间,或者在源和目标库实例释放后尽快释放DTS实例。

    源库、目标库出现其他问题后的重试时间

    在同步任务启动后,若源库或目标库出现非连接性的其他问题(如DDL或DML执行异常),则DTS会报错并会立即进行持续的重试操作,默认持续重试时间为10分钟,您也可以在取值范围(1~1440分钟)内自定义重试时间,建议设置10分钟以上。如果DTS在设置的重试时间内相关操作执行成功,同步任务将自动恢复。否则,同步任务将会失败。

    重要

    源库、目标库出现其他问题后的重试时间的值需要小于源库、目标库无法连接后的重试时间的值。

    是否限制全量迁移速率

    全量迁移时会开启对源库的多并发读取及对目标库的多并发写入,这一行为可能对用户的数据库造成一定的压力,如果不希望对数据库影响太大,可以限制迁移的速率上限。

    是否限制增量同步速率

    增量迁移时会开启对源库的多并发读取及对目标库的多并发写入,如果单库的业务压力较大,可能对另外一个库也造成较大的写入压力;如果不希望对数据库影响太大,可以限制迁移的速率上限。

    环境标签

    用于标识DTS任务的重要程度,环境标签不会对任务正常运行有任何影响。

    配置ETL功能

    选择是否配置ETL功能。关于ETL的更多信息,请参见什么是ETL

  7. 保存任务并进行预检查。

    • 若您需要查看调用API接口配置该实例时的参数信息,请将鼠标光标移动至下一步保存任务并预检查按钮上,然后单击气泡中的预览OpenAPI参数

    • 若您无需查看或已完成查看API参数,请单击页面下方的下一步保存任务并预检查

      说明
      • 在同步作业正式启动之前,会先进行预检查。只有预检查通过后,才能成功启动同步作业。

      • 如果预检查失败,请单击失败检查项后的查看详情,并根据提示修复后重新进行预检查。

      • 如果预检查产生警告:

        • 对于不可以忽略的检查项,请单击失败检查项后的查看详情,并根据提示修复后重新进行预检查。

        • 对于可以忽略无需修复的检查项,您可以依次单击确认告警详情确认屏蔽确定重新进行预检查,跳过告警检查项重新进行预检查。如果选择屏蔽告警检查项,可能会导致数据不一致等问题,给业务带来风险。

  8. 预检查通过率显示为100%时,单击下一步购买

  9. 购买页面,选择数据同步实例的计费方式、链路规格,详细说明请参见下表。

    类别

    参数

    说明

    信息配置

    计费方式

    • 预付费(包年包月):在新建实例时支付费用。适合长期需求,价格比按量付费更实惠,且购买时长越长,折扣越多。

    • 后付费(按量付费):按小时扣费。适合短期需求,用完可立即释放实例,节省费用。

    资源组配置

    实例所属的资源组,默认为default resource group。更多信息,请参见什么是资源管理

    链路规格

    DTS为您提供了不同性能的同步规格,同步链路规格的不同会影响同步速率,您可以根据业务场景进行选择。更多信息,请参见数据同步链路规格说明

    订购时长

    在预付费模式下,选择包年包月实例的时长和数量,包月可选择1~9个月,包年可选择1年、2年、3年和5年。

    说明

    该选项仅在付费类型为预付费时出现。

  10. 配置完成后,阅读并勾选《数据传输(按量付费)服务条款》

  11. 单击购买并启动,同步任务正式开始,您可在数据同步界面查看具体任务进度。

执行步骤

执行简介

  1. 预检查:在数据迁移或同步过程开始前的准备阶段,用于确认所有需要的条件是否满足。例如,网络连接、系统权限、数据格式和完整性等。

  2. 前置模块:在数据处理流程中,前置模块通常是对数据进行预处理。主要是指建立一些必要的触发器来处理后续的数据。

  3. 增量数据采集:该模块关注于仅采集自上一次采集操作后改变或新增的数据。有助于提高效率,因为它避免了处理不变的数据。

  4. 结构迁移:在数据迁移过程中,结构迁移涉及将数据从一个系统或格式转移到另一个系统或格式,同时保持数据的结构一致性。这通常是初步迁移步骤,用于设置新环境的数据结构。大部分的迁移工作,例如表结构、序列、函数存储过程、视图、索引都在这一步完成迁移。

  5. 全量迁移:将数据库或数据仓库的所有数据完整无缺地迁移到另一个系统。

  6. 结构迁移2:在初步结构迁移后进行的第二轮结构调整,用于更精细地调整和优化数据结构,或者解决初步迁移中发现的问题。主要会建立一些表上的外键。

  7. 增量写入:在完成初步的全量迁移之后,随着源系统中数据的更新,新增和变更的数据需要被识别并迁移到目标系统中。增量写入正是执行这一操作的步骤。

  8. 后置模块:数据迁移或同步完成后,后置模块执行的可能是一系列尾声工作。例如,数据清理、索引创建或性能优化等。

  9. 全量校验:在数据迁移后,需要进行校验以确保数据的完整性和准确性。全量校验就是对迁移后的全部数据进行校对,以确认数据是否正确无误地复制到了新系统。

  10. 增量校验:类似于全量校验,增量校验专注于验证只对增量数据进行的迁移。它确保自上次校验以来对数据所做的任何更改都被准确地捕获和迁移。

执行示例

您可以登录新版DTS同步任务的列表页面,查看执行详情。

  1. 预检查。

    image.png

    说明

    该步骤将自动执行,您无需关注。

  2. 前置模块。

    image.png

    说明

    该步骤将自动执行,您无需关注。

  3. 增量数据采集。

    image.png

    说明

    该步骤将自动执行,您无需关注。

  4. 结构迁移。

    将自动迁移大部分表格、索引和序列等。包括t1、empty、t2三个表都已成功迁移。

    说明

    如果在结构迁移过程中遇到失败的任务,您可以通过结构订正功能来手动修正迁移的SQL语句。

    image.png

  5. 全量迁移

    将选定范围内所有表的数据进行完整迁移,您可以在数据同步页面查看迁移过程中的数据流量和传输速度。

    image.png

    在进行全量迁移时,您可以监控每个表的数据量情况。例如,对于t1表,预计迁移的数据量为835117行,而实际完成迁移的数据量为835266行。

    image.png

  6. 结构迁移2

    该步骤的核心是迁移表格的外键约束。在数据成功迁移之后,补充外键是确保跨表数据保持一致性的重要操作。

    image.png

  7. 增量写入

    实行对源库流量的单向同步操作。在此过程中,源库的全部流量将被订阅转发,并在目标端进行相应的处理和应用。

    image.png

  8. 后置模块

  9. 全量校验

    全量校验的过程涉及对源库和目标库中的数据进行比对。在当前示例中,源库中的t1表和目标库中的t1表上的835266条记录进行了对比,数据一致,因此校验是成功的。

    image.png

  10. 增量校验

    一旦前置任务全部完成,系统会自动进入增量同步和校验阶段。在这一阶段,系统将对比两个数据库之间的增量数据差异。

    image.png

割接上线

在迁移完成后,强烈推荐您将迁移后的目标数据库加入到一个测试环境中,并对其进行全面的业务测试。目标数据库的数据应与原始数据库完全同步(尽管可能存在微小的延迟,这是数据回放过程中的正常现象)。根据您的业务需求,测试时长可能会有所不同,但通常建议至少进行一周的测试,以确保一切运行正常,之后再执行割接上线。

在割接上线之前,您应该规划一个具体的割接时间窗口,例如10小时。在这段时间内,原始数据库将停止服务,一旦目标库完成了数据回放,您就可以更新业务中的数据库连接字符串并重启业务系统,随后进行必要的基本业务测试。如果测试没有发现任何问题,则新服务便可以重新开放。

对于旧数据库,建议保留一段时间,直到确认目标数据库完全稳定后,旧数据库才可以被安全地废弃。

相关文档

PolarDB PostgreSQL 14版相对于PolarDB PostgreSQL 11版的变化点