使用DTS迁移分片集群架构的自建MongoDB数据库上云

重要

本文中含有需要您注意的重要提示信息,忽略该信息可能对您的业务造成影响,请务必仔细阅读。

本文介绍如何使用数据传输服务DTS(Data Transmission Service),依次将本地MongoDB分片集群数据库中的各个Shard节点,迁移至阿里云MongoDB分片集群实例来实现迁移上云。通过DTS的增量迁移功能,可以实现在本地应用不停服的情况下,平滑完成数据库的迁移上云。

更多数据迁移和同步场景的解决方案,请参见MongoDB数据迁移和同步方案概览

前提条件

  • 自建MongoDB和云数据库MongoDB支持的版本,请参见迁移方案概览

  • 确保目标分片集群实例中的Shard节点具备充足的存储空间。

    说明

    例如自建数据库中有三个Shard节点,其中第二个Shard节点占用的存储空间最多(500GB),那么分片集群实例中的每个Shard节点的存储空间均需要大于500GB。

迁移原理介绍

DTS通过迁移分片集群中的每个Shard节点来实现分片集群数据库的整体迁移,您需要为每个Shard节点创建一个对应的数据迁移任务。

说明

数据在目标MongoDB实例中的分布取决于您设置的片键,详情请参见设置数据分片以充分利用Shard性能

迁移原理

注意事项

  • DTS在执行全量数据迁移时将占用源库和目标库一定的资源,可能会导致数据库服务器负载上升。如果数据库业务量较大或服务器规格较低,可能会加重数据库压力,甚至导致数据库服务不可用。建议您在执行数据迁移前谨慎评估,在业务低峰期执行数据迁移。

  • MongoDB实例支持的版本与存储引擎请参见版本及存储引擎,如需跨版本或跨引擎迁移,请提前确认兼容性。

  • 由于DTS写入数据的逻辑为并发写入,所以会导致目标端占用的存储空间比源端大5%~10%。

  • 请确保目标端MongoDB没有与源端相同的主键(默认为_id),否则会导致数据丢失。若目标端有与源端相同的主键,请在不影响业务的前提条件下清空目标端的相关数据(删掉目标端中与源端相同_id的文档)。

  • 不支持数据库admin和local作为源和目标库。

  • 源MongoDB分片集群实例的Mongos节点的数量不能超过10个。

费用说明

迁移类型

链路配置费用

公网流量费用

全量数据迁移

不收费。

通过公网将数据迁移出阿里云时将收费,详情请参见DTS产品定价

增量数据迁移

收费,详情请参见DTS产品定价

迁移类型说明

  • 全量数据迁移:将源MongoDB数据库迁移对象的存量数据全部迁移到目标MongoDB数据库中。

    说明

    支持database、collection、index的迁移。

  • 增量数据迁移:在全量迁移的基础上,将源MongoDB数据库的增量更新数据同步到目标MongoDB数据库中。

    说明
    • 支持database、collection、index的新建和删除操作的同步。

    • 支持document的新增、删除和更新操作的同步。

数据库账号的权限要求

数据库

全量数据迁移

增量数据迁移

自建MongoDB数据库

待迁移库的read权限

待迁移库、admin库和local库的read权限

阿里云MongoDB数据库

目标库的readWrite权限

目标库的readWrite权限

数据库账号创建及授权方法:

准备工作

  1. 必需:为避免块迁移对数据一致性的影响,迁移期间需要关闭自建MongoDB数据库的均衡器(Balancer),详情请参见管理MongoDB均衡器Balancer

    警告

    如果未关闭均衡器,迁移期间发生了块迁移将影响DTS读取到的数据的一致性。

  2. 清除自建MongoDB数据库中,因块迁移失败而产生的孤立文档。

    说明

    如果未清除孤立文档,将影响迁移性能,而且可能在迁移过程会遇到_id冲突的文档,导致迁移错误的数据。

    1. 下载cleanupOrphaned.js脚本文件。

      wget "https://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/attach/120562/cn_zh/1564451237979/cleanupOrphaned.js"
    2. 修改cleanupOrphaned.js脚本文件,将test替换为待清理孤立文档的数据库名。

      说明

      如果您有多个数据库,您需要重复执行本步骤和步骤c

    3. 执行如下命令,清理Shard节点中指定数据库下所有集合的孤立文档。

      说明

      您需要重复执行本步骤,为每个Shard节点清理孤立文档。

      mongo --host <Shardhost> --port <Primaryport>  --authenticationDatabase <database> -u <username> -p <password> cleanupOrphaned.js
      说明
      • <Shardhost>:Shard节点的IP地址。

      • <Primaryport>:Shard节点中的Primary节点的服务端口。

      • <database>:鉴权数据库名,即数据库账号所属的数据库。

      • <username>:登录数据库的账号。

      • <password>:登录数据库的密码。

      示例:

      本案例的自建MongoDB数据库有三个Shard节点,所以需要分别为这三个节点清除孤立文档。

      mongo --host 172.16.1.10 --port 27018  --authenticationDatabase admin -u dtstest -p 'Test123456' cleanupOrphaned.js
      mongo --host 172.16.1.11 --port 27021 --authenticationDatabase admin -u dtstest -p 'Test123456' cleanupOrphaned.js
      mongo --host 172.16.1.12 --port 27024  --authenticationDatabase admin -u dtstest -p 'Test123456' cleanupOrphaned.js
  3. 根据业务需要,在目标MongoDB实例中创建需要分片的数据库和集合,并配置数据分片,详情请参见设置数据分片以充分利用Shard性能

    说明

    在配置数据迁移前配置数据分片,可避免数据被迁移至同一Shard中,导致单个Shard使用的存储空间超出预期规划。

操作步骤

  1. 登录数据传输控制台

  2. 在左侧导航栏,单击数据迁移

  3. 迁移任务列表页面顶部,选择目标MongoDB实例所属地域。

  4. 单击右上角的创建迁移任务

  5. 配置迁移任务的源库及目标库信息。 配置源库和目标库信息

    类别

    配置

    说明

    任务名称

    DTS会自动生成一个任务名称,建议配置具有业务意义的名称(无唯一性要求),便于后续识别。

    源库信息

    实例类型

    根据源库的部署位置进行选择,本文以有公网IP的自建数据库为例介绍配置流程。

    说明 当自建数据库为其他实例类型时,您还需要执行相应的准备工作,详情请参见准备工作概览

    实例地区

    当实例类型选择为有公网IP的自建数据库时,实例地区无需设置。

    说明

    如果您的自建数据库具备白名单安全类设置,您需要在实例地区配置项后,单击获取DTS IP段来获取DTS服务器的IP地址,并将获取到的IP地址加入自建数据库的白名单安全设置中。

    数据库类型

    选择MongoDB

    主机名或IP地址

    填入自建MongoDB数据库中,单个Shard节点的域名或IP地址,本案例填入公网IP地址。

    说明

    DTS通过依次迁移分片集群中的每个Shard节点来实现整体迁移,此处先填入第一个Shard节点的域名或IP地址,稍后创建第二个迁移任务时,此处填入第二个Shard节点的域名或IP地址。以此类推,直至迁移所有Shard节点。

    端口

    填入对应Shard节点的服务端口。

    说明

    本案例中,各Shard节点的服务端口须开放至公网。

    数据库名称

    填入鉴权数据库名,即数据库账号所属的数据库。

    数据库账号

    填入自建MongoDB数据库的数据库账号,权限要求请参见数据库账号的权限要求

    数据库密码

    填入该数据库账号对应的密码。

    说明

    源库信息填写完毕后,您可以单击数据库密码后的测试连接来验证填入的源库信息是否正确。源库信息填写正确则提示测试通过,如提示测试失败,单击测试失败后的诊断,根据提示调整填写的源库信息。

    连接方式

    选择非加密连接

    说明

    只有在迁移MongoDB Atlas数据库时,才能选择SSL安全连接

    目标库信息

    实例类型

    选择MongoDB实例

    实例地区

    选择目标MongoDB实例所在地域。

    MongoDB实例ID

    选择目标分片集群实例ID。

    数据库名称

    填入鉴权数据库名,即数据库账号所属的数据库。

    数据库账号

    填入MongoDB实例的数据库账号,权限要求请参见数据库账号的权限要求

    数据库密码

    填入该数据库账号对应的密码。

    说明

    目标库信息填写完毕后,您可以单击数据库密码后的测试连接来验证填入的目标库信息是否正确。目标库信息填写正确则提示测试通过,如提示测试失败,单击测试失败后的诊断,根据提示调整填写的目标库信息。

  6. 配置完成后,单击页面右下角的授权白名单并进入下一步

    如果源或目标数据库是阿里云数据库实例(例如RDS MySQL云数据库MongoDB版等),DTS会自动将对应地区DTS服务的IP地址添加到阿里云数据库实例的白名单;如果源或目标数据库是ECS上的自建数据库,DTS会自动将对应地区DTS服务的IP地址添到ECS的安全规则中,您还需确保自建数据库没有限制ECS的访问;如果源或目标数据库是IDC自建数据库或其他云数据库,则需要您手动添加对应地区DTS服务的IP地址,以允许来自DTS服务器的访问。DTS服务的IP地址,请参见DTS服务器的IP地址段

    警告 DTS自动添加或您手动添加DTS服务的公网IP地址段可能会存在安全风险,一旦使用本产品代表您已理解和确认其中可能存在的安全风险,并且需要您做好基本的安全防护,包括但不限于加强账号密码强度防范、限制各网段开放的端口号、内部各API使用鉴权方式通信、定期检查并限制不需要的网段,或者使用通过内网(专线/VPN网关/智能网关)的方式接入。
  7. 选择迁移对象和迁移类型。选择迁移对象和迁移类型选择

    配置说明
    迁移类型
    • 如果只需要进行全量迁移,则勾选全量数据迁移
    • 如果需要进行不停机迁移,则同时勾选全量数据迁移增量数据迁移
    说明 如果未勾选增量数据迁移,为保障数据一致性,数据迁移期间请勿在自建MongoDB数据库中写入新的数据。
    迁移对象
    • 迁移对象框中单击待迁移的对象,然后单击向右箭头图标将其移动到已选择对象框。
      说明 不支持迁移admin、local、config数据库。
    • 迁移对象选择的粒度为database、collection或function。
    • 默认情况下,迁移完成后,迁移对象的名称保持不变。如果您需要改变迁移对象在目标数据库中的名称,那么需要使用DTS提供的对象名映射功能。使用方法请参见库表列映射
    映射名称更改如需更改迁移对象在目标实例中的名称,请使用对象名映射功能,详情请参见库表列映射
    源、目标库无法连接重试时间默认重试12小时,您也可以自定义重试时间。如果DTS在设置的时间内重新连接上源、目标库,迁移任务将自动恢复。否则,迁移任务将失败。
    说明 由于连接重试期间,DTS将收取任务运行费用,建议您根据业务需要自定义重试时间,或者在源和目标库实例释放后尽快释放DTS实例。
  8. 上述配置完成后,单击页面右下角的预检查并启动
    说明
    • 在迁移任务正式启动之前,会先进行预检查。只有预检查通过后,才能成功启动迁移任务。
    • 如果预检查失败,单击具体检查项后的提示,查看失败详情。
      • 您可以根据提示修复后重新进行预检查。
      • 如无需修复告警检测项,您也可以选择确认屏蔽忽略告警项并重新进行预检查,跳过告警检测项重新进行预检查。
  9. 预检查通过后,单击下一步

  10. 购买配置确认页面,选择链路规格并选中数据传输(按量付费)服务条款

  11. 单击购买并启动,迁移任务正式开始。

  12. 重复第1步到第11步的操作,为剩余的Shard节点创建迁移任务。

  13. 完成迁移任务。

    • 全量数据迁移

      请勿手动结束迁移任务,否则可能会导致数据不完整。您只需等待迁移任务完成即可,迁移任务会自动结束。

    • 增量数据迁移

      迁移任务不会自动结束,需要手动结束迁移任务。

      说明

      请选择合适的时间手动结束迁移任务,例如业务低峰期或准备将业务切换至MongoDB实例时。

      1. 等待所有Shard节点的迁移任务的进度变更为增量迁移,并显示为无延迟状态时,将源库停写几分钟,此时增量迁移的状态可能会显示延迟的时间。

      2. 等待所有Shard节点迁移任务的增量迁移再次进入无延迟状态后,手动结束迁移任务。结束迁移任务

  14. 将业务切换至阿里云MongoDB实例。