本文介绍如何使用数据传输服务DTS(Data Transmission Service),将自建PostgreSQL或RDS PostgreSQL实例增量迁移至自建PostgreSQL或RDS PostgreSQL实例。DTS支持结构迁移、全量数据迁移和增量数据迁移,同时使用这三种迁移类型可以实现在自建应用不停服的情况下,平滑地完成数据库迁移。本文介绍自建PostgreSQL增量迁移至RDS PostgreSQL的配置方式。
前提条件
- 自建PostgreSQL的数据库版本为10.1~13版本。
- 已创建RDS PostgreSQL,详情请参见创建RDS PostgreSQL实例。
说明 为保障兼容性,建议RDS PostgreSQL的数据库版本与自建PostgreSQL的数据库版本相同。
- RDS PostgreSQL实例的存储空间须大于自建PostgreSQL数据库占用的存储空间。
注意事项
- DTS在执行全量数据迁移时将占用源库和目标库一定的读写资源,可能会导致数据库的负载上升,在数据库性能较差、规格较低或业务量较大的情况下(例如源库有大量慢SQL、存在无主键表或目标库存在死锁等),可能会加重数据库压力,甚至导致数据库服务不可用。因此您需要在执行数据迁移前评估源库和目标库的性能,同时建议您在业务低峰期执行数据迁移(例如源库和目标库的CPU负载在30%以下)。
- 如果源库中待迁移的表没有主键或唯一约束,且所有字段没有唯一性,可能会导致目标数据库中出现重复数据。
- 在增量数据迁移过程中,如果迁移对象的选择粒度为Schema,在待迁移的Schema中创建了新的表或使用RENAME命令重建了待迁移的表,您需要在对该表写入数据前执行
ALTER TABLE schema.table REPLICA IDENTITY FULL;
命令。说明 将上述命令中的schema
和table
替换成真实的Schema名和表名。 - 为保障增量数据迁移延迟时间展示的准确性,DTS会在源库中新增一个名为dts_postgres_heartbeat的心跳表。
- 在增量数据迁移的过程中,DTS会在源库中创建前缀为
dts_sync_
的replication slot用于复制数据。DTS会每隔90分钟自动清理一次历史replication slot,避免其持续累积占用磁盘空间。说明 当释放迁移任务或迁移失败时,DTS会主动清理该replication slot;如果RDS PostgreSQL发生了主备切换,则需要您登录备库来手动清理。 - 为保障迁移任务的正常进行,目前仅支持RDS PostgreSQL 11进行主备切换,且需设置参数
rds_failover_slot_mode
为sync
,设置方式,请参见逻辑复制槽故障转移(Logical Replication Slot Failover)。警告 自建PostgreSQL和其他版本的RDS PostgreSQL进行主备切换,会导致迁移中断。 - 对于迁移失败的任务,DTS会触发自动恢复。当您需要将业务切换至目标实例,请务必先终止或释放该任务,避免该任务被自动恢复后,导致源端数据覆盖目标实例的数据。
- 若源库有长事务,且实例包含增量迁移任务,则可能会导致源库长事务提交前的预写日志WAL(Write-Ahead Logging)无法清理而堆积,从而造成源库磁盘空间不足。
迁移限制
- 一个数据迁移任务只能对一个数据库进行数据迁移,如果有多个数据库需要迁移,则需要为每个数据库创建数据迁移任务。
- 待迁移的数据库名称中间不能包含短划线(-),例如dts-testdata。
- 如果迁移过程中源库发生了主备切换,DTS的增量数据迁移无法实现断点续传。
- 由于源库的主备节点可能存在同步延迟导致数据不一致,执行数据迁移时请使用源库的主节点作为迁移的数据源。
说明 为避免数据迁移对业务的影响,请在业务低峰期执行数据迁移,您还可以根据源库的读写压力情况调整迁移速率,详情请参见调整全量迁移速率。
- 增量数据迁移阶段不支持迁移bit类型的数据。
- 由于业务切换到目标端后,新写入的Sequence不会按照源库的Sequence最大值作为初始值去递增,您需要在业务切换前,在源库中查询对应Sequence的最大值,然后在目标库中将其作为对应Sequence的初始值。
- DTS的校验对象为数据内容,暂不支持Sequence等元数据的校验,您需要自行校验。
费用说明
迁移类型 | 链路配置费用 | 公网流量费用 |
---|---|---|
结构迁移和全量数据迁移 | 不收费。 | 通过公网将数据迁移出阿里云时将收费,详情请参见计费概述。 |
增量数据迁移 | 收费,详情请参见计费概述。 |
数据库账号的权限要求
数据库 | 结构迁移 | 全量迁移 | 增量迁移 |
---|---|---|---|
自建PostgreSQL数据库 | pg_catalog的usage权限 | 迁移对象的select权限 | superuser |
RDS PostgreSQL实例 | 迁移对象的create、usage权限 | schema的owner权限 | schema的owner权限 |
数据库账号创建及授权方法:
- 自建PostgreSQL数据库请参见CREATE USER和GRANT语法。
- RDS PostgreSQL实例请参见创建账号。
数据迁移流程说明
为解决对象间的依赖,提高迁移成功率,DTS对PostgreSQL结构及数据的迁移顺序如下表所示。
说明 关于结构迁移、全量数据迁移、增量数据迁移的术语介绍,请参见基本概念。
DTS自动执行的迁移流程 | 迁移说明 |
---|---|
1.结构迁移 | DTS迁移TABLE、VIEW、SEQUENCE、FUNCTION、USER DEFINED TYPE、RULE、DOMAIN、OPERATION、AGGREGATE的结构信息至目标库。
说明 不支持迁移插件、使用C语言编写的FUNCTION。
|
2.全量数据迁移 | DTS将迁移对象的存量数据全部迁移至目标库。 |
3.结构迁移 | DTS迁移TRIGGER、FOREIGN KEY的结构信息至目标库。 |
4.增量数据迁移 | 在全量数据迁移的基础上,DTS将迁移对象的增量更新迁移至目标库。
在增量数据迁移阶段,DTS支持增量迁移的SQL语句如下:
说明 增量数据迁移阶段不支持迁移bit类型的数据。
|
准备工作
操作步骤
结束迁移任务
警告 为尽可能地减少业务切换带来的影响,您可以建立回退方案(将目标库的增量数据实时迁移回源库),详情请参见业务切换流程。如果不涉及业务切换,您可以结束迁移任务。
- 全量数据迁移
请勿手动结束迁移任务,否则可能导致数据不完整。您只需等待迁移任务完成即可,迁移任务会自动结束。
- 增量数据迁移
迁移任务不会自动结束,您需要手动结束迁移任务。
- 观察迁移任务的进度变更为增量迁移,并显示为无延迟状态时,将源库停写几分钟,此时增量迁移的状态可能会显示延迟的时间。
- 等待迁移任务的增量迁移再次进入无延迟状态后,手动结束迁移任务。