阿里云首页

Dataphin管道任务抽取rdbms类数据库数据,切分键使用不当导致同步的数据和原表数据条数不一致

产品名称

Dataphin

产品模块

数据集成

概述

管道任务中来源表数据总数和管道任务同步的数据总数不一致。但是去掉切分键后,再运行任务数据量一致

问题描述

客户管道任务抽取SqlServer数据时,查询来源表数据总数和管道任务同步的数据总数不一致。查询来源表数据总数:

该任务运行成功,但任务读取写入数据总数如下:

   

  客户把切分键去掉数据量就一致了,SqlServer输入组件配置如下:

问题原因

rdbms类输入组件的切分键为字符串导致,因为字符串不能准确划分范围,切分键不支持字符串。

解决方案

切分键作用:配合并发度使用,一般建议使用主键或有索引的列作为切分键。并发线程中切分键字段值一样,会判断为同一条数据。

以上问题首先确认切分键是否主键或者切分键的值是否唯一;其次考虑切分键的数据类型是否为字符串,字符串不能准确划分范围,并发线程下可能会出现误判情况。rdbms类输入组件,建议表的主键为整型。

更多信息

相关文档

管理SQL Server组件:https://help.aliyun.com/knowledge_detail/161509.html

首页 Dataphin管道任务抽取rdbms类数据库数据,切分键使用不当导致同步的数据和原表数据条数不一致