文档

Dataphin同步Hive数据源Textfile格式表,报错“脏数据”或者“ArrayIndexOutOfBounds”

更新时间:
一键部署

问题描述

Dataphin同步Hive数据源Textfile格式表,可能会遇到以下问题:

1. 数据中存在与列分隔符相同的字符,这样会导致读取数据错位。

2.数据中存在换行符,也会导致报错“脏数据”

问题原因

本身Hive Textfile格式文件读取数据时是按照列分隔符将一行数据分割多列

解决方案

重建表,使用ORC或者Qarquet格式,占用储存少、计算性能高。

这种情况只有重建表,因为对于一个文本文件的读取,没有任何依据能够识别到底就是新的一行还是数据中存在换行符,同样也无法识别该字符到底是列分隔符还是数据中的字符。

适用于

  • Dataphin
  • 管道任务
  • 本页导读
文档反馈