自建 MongoDB 迁移到阿里云 MongoDB 方案

一、适用场景

本方案适用于与 迁移至 阿里云 MongoDB 场景。

迁移类型适用于:全量数据迁移、增量数据迁移;

网络适用场景:公网迁移、内网迁移;

二、迁移相关工具介绍

阿里云数据传输服务 DTS

数据传输服务DTS(Data Transmission Service)是阿里云提供的实时数据流服务,支持关系型数据库(RDBMS)、非关系型的数据库(NoSQL)、数据多维分析(OLAP)等数据源间的数据交互,集数据同步、迁移、订阅、集成、加工于一体,助您构建安全、可扩展、高可用的数据架构。

三、迁移方案

数据迁移方案

使用阿里云传输服务 DTS 进行数据迁移

迁移原理

image.png

数据迁移过程包括三个阶段,即结构迁移、全量数据迁移和增量数据迁移。 如果需要在迁移期间保持源数据库的正常运行,当您在配置迁移任务时,必须将结构迁移、全量数据迁移和增量数据迁移都选为所需的迁移类型。

  • 结构迁移:在迁移数据之前,DTS需要在目标数据库中重新创建数据结构。对于异构数据库之间的迁移,DTS会解析源数据库的DDL代码,将代码转换成目标数据库的语法,然后在目标数据库中重新创建结构对象。

  • 全量数据迁移:在全量数据迁移阶段,DTS会将源数据库的存量数据全部迁移到目标数据库。 源数据库保持运行状态,在迁移过程中仍不断进行数据更新。 DTS使用增量数据读取模块来获取全量数据迁移过程中发生的数据更新。 当全量数据迁移开始时,增量数据读取模块将被激活。在全量数据迁移阶段,增量数据会被解析、重新格式化并存储在本地DTS服务器上。

  • 增量数据迁移:当全量数据迁移完成后,DTS会检索本地存储的增量数据,重新格式化,并将数据更新应用到目标数据库中。 此过程将持续下去,直到所有正在进行的数据变更都复制到目标数据库,并且源数据库和目标数据库完全同步。

前置条件
  • 自建MongoDB和云数据库MongoDB支持的版本,请参见迁移方案概览。 

  • 建议云数据库MongoDB的存储空间比自建MongoDB数据库占用的存储空间大10%。

风险及注意项
  • 自建单节点架构

    • 单节点架构的自建MongoDB数据库默认不支持开启oplog,如果将单节点配置成“只有一个节点的副本集”,则可以开启oplog,从而让DTS支持增量迁移。

    • 为避免影响您的正常业务使用,请在业务低峰期进行数据迁移。

    • config数据库属于系统内部数据库,如无特殊需求,请勿迁移该库。

    • 阿里云MongoDB实例支持的版本与存储引擎请参见版本及存储引擎,如需跨版本或跨引擎迁移,请提前确认兼容性。

    • 不支持数据库adminlocal作为源和目标库。

    • 由于DTS写入数据的逻辑为并发写入,所以会导致目标端占用的存储空间比源端大5%~10%。

    • 请确保目标端MongoDB没有与源端相同的主键(默认为_id),否则会导致数据丢失。若目标端有与源端相同的主键,请在不影响业务的前提条件下清空目标端的相关数据(删掉目标端中与源端相同_id的文档)。

  • 自建副本集架构

    • config数据库属于系统内部数据库,如无特殊需求,请勿迁移该库。

    • DTS在执行全量数据迁移时将占用源库和目标库一定的资源,可能会导致数据库服务器负载上升。如果数据库业务量较大或服务器规格较低,可能会加重数据库压力,甚至导致数据库服务不可用。建议您在执行数据迁移前谨慎评估,在业务低峰期执行数据迁移。

    • MongoDB实例支持的版本与存储引擎请参见版本及存储引擎,如需跨版本或跨引擎迁移,请提前确认兼容性。

    • 不支持数据库adminlocal作为源和目标库。

    • 由于DTS写入数据的逻辑为并发写入,所以会导致目标端占用的存储空间比源端大5%~10%。

    • 请确保目标端MongoDB没有与源端相同的主键(默认为_id),否则会导致数据丢失。若目标端有与源端相同的主键,请在不影响业务的前提条件下清空目标端的相关数据(删掉目标端中与源端相同_id的文档)。

  • 自建分片集群架构

    • config数据库属于系统内部数据库,如无特殊需求,请勿迁移该库。

    • DTS在执行全量数据迁移时将占用源库和目标库一定的资源,可能会导致数据库服务器负载上升。如果数据库业务量较大或服务器规格较低,可能会加重数据库压力,甚至导致数据库服务不可用。建议您在执行数据迁移前谨慎评估,在业务低峰期执行数据迁移。

    • MongoDB实例支持的版本与存储引擎请参见版本及存储引擎,如需跨版本或跨引擎迁移,请提前确认兼容性。

    • 不支持数据库adminlocal作为源和目标库。

    • 由于DTS写入数据的逻辑为并发写入,所以会导致目标端占用的存储空间比源端大5%~10%。

    • 请确保目标端MongoDB没有与源端相同的主键(默认为_id),否则会导致数据丢失。若目标端有与源端相同的主键,请在不影响业务的前提条件下清空目标端的相关数据(删掉目标端中与源端相同_id的文档)。

数据校验方案

使用DTS 进行数据校验

DTS支持配置校验任务,在迁移过程中,完成数据一致性校验。

四、实施迁移过程

使用阿里云传输服务 DTS 进行数据迁移

准备工作

应确保数据库权限:

迁移数据源

全量数据迁移

增量数据迁移

自建MongoDB数据库

待迁移库的read权限

待迁移库、admin库和local库的read权限

阿里云MongoDB数据库

目标库的readWrite权限

目标库的readWrite权限

对于分片集群架构的自建MongoDB,还应做以下准备事项:

  • 为避免块迁移对数据一致性的影响,迁移期间需要关闭自建MongoDB数据库的均衡器(Balancer),详情请参见管理MongoDB均衡器Balancer 。如果未关闭均衡器,迁移期间发生了块迁移将影响DTS读取到的数据的一致性。

  • 清除自建MongoDB数据库中,因块迁移失败而产生的孤立文档。 如果未清除孤立文档,将影响迁移性能,而且可能在迁移过程会遇到_id冲突的文档,导致迁移错误的数据。

  • 下载脚本文件。 

wget "https://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/attach/120562/cn_zh/1564451237979/cleanupOrphaned.js"
  • 修改cleanupOrphaned.js脚本文件,将test替换为待清理孤立文档的数据库名。 如果您有多个数据库,您需要重复执行本步骤和下一步骤。

  • 执行如下命令,清理Shard节点中指定数据库下所有集合的孤立文档。 您需要重复执行本步骤,为每个Shard节点清理孤立文档。 

mongo --host <Shardhost> --port <Primaryport>  --authenticationDatabase <database> -u <username> -p <password> cleanupOrphaned.js

说明 

  • <Shardhost>:Shard节点的IP地址。

  • <Primaryport>:Shard节点中的Primary节点的服务端口。

  • <database>:鉴权数据库名,即数据库账号所属的数据库。

  • <username>:登录数据库的账号。

  • <password>:登录数据库的密码。

示例:本案例的自建MongoDB数据库有三个Shard节点,所以需要分别为这三个节点清除孤立文档。

mongo --host 172.16.1.10 --port 27018  --authenticationDatabase admin -u dtstest -p 'Test123456' cleanupOrphaned.js
mongo --host 172.16.1.11 --port 27021 --authenticationDatabase admin -u dtstest -p 'Test123456' cleanupOrphaned.js
mongo --host 172.16.1.12 --port 27024  --authenticationDatabase admin -u dtstest -p 'Test123456' cleanupOrphaned.js

说明 

  • 在配置数据迁移前配置数据分片,可避免数据被迁移至同一Shard中,导致单个Shard使用的存储空间超出预期规划。

操作步骤

1、登录数据传输控制台
2、在左侧导航栏,单击数据迁移。
3、在迁移任务列表页面顶部,选择目标MongoDB实例所属地域。
4、单击右上角的创建迁移任务。
5、配置迁移任务的源库及目标库信息。MongoDB迁移源目数据库配置

类别

配置

说明

任务名称

DTS会自动生成一个任务名称,建议配置具有业务意义的名称(无唯一性要求),便于后续识别。

源库信息

实例类型

根据源库的部署位置进行选择,本文以有公网IP的自建数据库为例介绍配置流程。 

  • 说明 :当自建数据库为其他实例类型时,您还需要执行相应的准备工作,详情请参见准备工作

实例地区

当实例类型选择为有公网IP的自建数据库时,实例地区无需设置。 

  • 说明 :如果您的自建数据库配置了白名单安全类设置,您需要在实例地区配置项后,单击获取DTS IP段来获取DTS服务器的IP地址,并将获取到的IP地址加入自建数据库的白名单安全设置中。

数据库类型

选择MongoDB。

主机名或IP地址

填入自建MongoDB数据库的访问地址,本案例中填入公网地址。

端口

填入自建MongoDB数据库的服务端口。 

  • 说明 :本案例中,该服务端口须开放至公网。

数据库名称

填入鉴权数据库名,即数据库账号所属的数据库。

数据库账号

填入自建MongoDB数据库的数据库账号,权限要求请参见数据库账号的权限要求

数据库密码

填入该数据库账号对应的密码。 

  • 说明 :源库信息填写完毕后,您可以单击数据库密码后的测试连接来验证填入的源库信息是否正确。源库信息填写正确则提示测试通过,如提示测试失败,单击测试失败后的诊断,根据提示调整填写的源库信息。

连接方式

选择非加密连接。 

  • 说明 :只有在迁移MongoDB Atlas数据库时,才能选择SSL安全连接。

目标库信息

实例类型

选择MongoDB实例。

实例地区

选择目标MongoDB实例所在地域。

MongoDB实例ID

选择目标MongoDB实例ID。

数据库名称

填入鉴权数据库名,即数据库账号所属的数据库。 

数据库账号

填入MongoDB实例的数据库账号,权限要求请参见数据库账号的权限要求

数据库密码

填入该数据库账号对应的密码。 

说明 

目标库信息填写完毕后,您可以单击数据库密码后的测试连接来验证填入的目标库信息是否正确。目标库信息填写正确则提示测试通过,如提示测试失败,单击测试失败后的诊断,根据提示调整填写的目标库信息。

6、配置完成后,单击页面右下角的授权白名单并进入下一步。 

如果源或目标数据库是阿里云数据库实例(例如RDS MySQL、云数据库MongoDB版等),DTS会自动将对应地区DTS服务的IP地址添加到阿里云数据库实例的白名单;如果源或目标数据库是ECS上的自建数据库,DTS会自动将对应地区DTS服务的IP地址添到ECS的安全规则中,您还需确保自建数据库没有限制ECS的访问(若数据库是集群部署在多个ECS实例,您需要手动将DTS服务对应地区的IP地址添到其余每个ECS的安全规则中);如果源或目标数据库是IDC自建数据库或其他云数据库,则需要您手动添加对应地区DTS服务的IP地址,以允许来自DTS服务器的访问。DTS服务的IP地址,请参见添加DTS服务器的IP地址段

警告 

DTS自动添加或您手动添加DTS服务的公网IP地址段可能会存在安全风险,一旦使用本产品代表您已理解和确认其中可能存在的安全风险,并且需要您做好基本的安全防护,包括但不限于加强账号密码强度防范、限制各网段开放的端口号、内部各API使用鉴权方式通信、定期检查并限制不需要的网段,或者使用通过内网(专线/VPN网关/智能网关)的方式接入。

7、选择迁移对象及迁移类型。选择迁移对象和迁移类型选择

配置

说明

迁移类型

如果只需要进行全量迁移,则勾选全量数据迁移。 

如果需要进行不停机迁移,则同时勾选全量数据迁移和增量数据迁移。 

  • 说明:如果未勾选增量数据迁移,为保障数据一致性,数据迁移期间请勿在自建MongoDB数据库中写入新的数据。

迁移对象

在迁移对象框中单击待迁移的对象,然后单击向右箭头图标将其移动到已选择对象框。 

  • 说明 :不支持迁移admin、local、config数据库。

迁移对象选择的粒度为database、collectionfunction。

默认情况下,迁移完成后,迁移对象的名称保持不变。如果您需要改变迁移对象在目标数据库中的名称,那么需要使用DTS提供的对象名映射功能。使用方法请参见库表列映射

映射名称更改

如需更改迁移对象在目标实例中的名称,请使用对象名映射功能,详情请参见库表列映射

源、目标库无法连接重试时间

默认重试12小时,您也可以自定义重试时间。如果DTS在设置的时间内重新连接上源、目标库,迁移任务将自动恢复。否则,迁移任务将失败。

  • 说明 :由于连接重试期间,DTS将收取任务运行费用,建议您根据业务需要自定义重试时间,或者在源和目标库实例释放后尽快释放DTS实例。

8、上述配置完成后,单击页面右下角的预检查并启动。 
  • 说明 

    • 在迁移任务正式启动之前,会先进行预检查。只有预检查通过后,才能成功启动迁移任务。

    • 如果预检查失败,单击具体检查项后的,查看失败详情。

      • 您可以根据提示修复后重新进行预检查。

      • 如无需修复告警检测项,您也可以选择确认屏蔽、忽略告警项并重新进行预检查,跳过告警检测项重新进行预检查。

9、预检查通过后,单击下一步。
10、在购买配置确认页面,选择链路规格并勾选数据传输(按量付费)服务条款。
11、单击购买并启动,迁移任务正式开始。 
  • 全量数据迁移 

请勿手动结束迁移任务,否则可能会导致数据不完整。您只需等待迁移任务完成即可,迁移任务会自动结束。

  • 增量数据迁移 

迁移任务不会自动结束,您需要手动结束迁移任务。

  • 说明 :请选择合适的时间手动结束迁移任务,例如业务低峰期或准备将业务切换至MongoDB实例时。

    • 观察迁移任务的进度变更为增量迁移,并显示为无延迟状态时,将源库停写几分钟,此时增量迁移的状态可能会显示延迟的时间。

    • 等待迁移任务的增量迁移再次进入无延迟状态后,手动结束迁移任务。MongoDB增量迁移无延迟

12、将业务切换至阿里云MongoDB实例。