文档

Dataphin管道任务将MongoDB数据同步到MaxCompute发现有重复数据

更新时间:
一键部署

问题描述

Dataphin中通过管道任务将MongoDB中的数据同步到MaxCompute,发现有重复数据。原MongoDB表里有96条数据,同步到MaxCompute中有108条数据,通过对比分析发现_id字段值重复了12条。

问题原因

客户同步了_id字段,该字段是MongoDB的系统字段,该字段默认是ObjectId类型,但是这个字段可以被覆盖。如果用户写入MongoDB时有记录覆盖了该字段,会导致该字段类型不是ObjectId。那管道在并发运行切分任务时,这些记录就可能会被重复划分到多个任务里。从而导致_id字段有重复,同步的结果就会比原MongoDB表中数据多。

解决方案

  • 重刷mongo的数据,不能覆盖_id字段
  • 保持mongo数据不变,设置管道任务并发度为1

适用于

  • 适用产品:Dataphin
  • 适用版本:3.7及其以上版本
  • 本页导读
文档反馈