文档

Dataphin管道任务同步数据,hive源表报错“ERROR DlinkTaskPluginCollector - 脏数据”

更新时间:
一键部署

问题描述

Dataphin管道任务同步数据,hive源表报错“ERROR DlinkTaskPluginCollector - 脏数据”。

问题原因

hive源表字段数据中有单个双引号,导致同步时数据分割错了,抛出了“ERROR DlinkTaskPluginCollector - 脏数据”错误。

解决方案

可以使用输入脚本模式同步数据,hive脚本模式输入样例如下。

{
    "parameter": {
        "path": "/xxx/xxx/xxx/xxx/dt=${bizdate}",
        "textReaderConfig": "{}",
        "encoding": "UTF-8",
        "fieldDelimiter": "\u0001",
        "fileType": "text"
    },
    "column": [
        {
            "name": "字段1",
            "index": 0,
            "type": "String"
        },
        {
            "name": "字段2",
            "index": 1,
            "type": "String"
        }
    ],
    "name": "hdfsreader"
}

适用于

  • Dataphin
  • 本页导读
文档反馈