DataWorks同步产生脏数据-阿里云帮助中心

以下为您介绍脏数据定义、常见产生原因与影响，及相关具体报错场景示例。

脏数据是对业务没有意义，格式非法或者同步过程中出现问题的数据。单条数据写入目标数据源过程中发生了异常，则此条数据为脏数据。因此只要是写入失败的数据均被归类于脏数据。

说明

每个数据库存在自己的特性，以下仅从常见场景进行说明。

脏数据不会同步至目标端。
脏数据产生后，不会同步至目标端，您可以在同步任务配置时，通过错误记录数控制（脏数据控制）控制同步过程中是否允许脏数据产生，并且支持控制脏数据条数，即当脏数据超过指定条数时，任务失败退出。
大量脏数据产生将影响同步速度。

脏数据如何排查和定位
DataWorks数据集成Elasticsearch 时间格式导致报错脏数据
- 问题描述：ERROR StdoutPluginCollector - 脏数据: {"exception":"Invalid format: \"2022-06-17 13:23:54\" is malformed at \" 13:23:54\"","record":
- 报错原因：未告知同步应如何解析该时间格式的数据。待同步字段存在date类型，且该字段mapping没有format配置时，需要配置dateFormat参数。配置形式如下： "dateFormat" : "yyyy-MM-dd||yyyy-MM-dd HH:mm:ss"，该配置需要包含同步date类型字段的所有格式。关于es该参数配置，详情请参见：Elasticsearch Reader
MaxCompute数据同步至Redis由于字段个数不匹配导致报错脏数据
- 问题现象：source column number is in valid
- 报错原因：源头多配置了column。当value类型为hash时，数据源的每行记录都需遵循相应的规范。即每行记录除key外，只能有1对attribute和value，并且attribute必须在value前面，Redis Writer方可解析出column对应的是attribute或value。按照用户意图，应该是column只保留3列，移除不需要的列。详情请参见：Redis Writer。