Dataphin同步Hive数据源Textfile格式表,报错“脏数据”或者“ArrayIndexOutOfBounds”
更新时间:
问题描述
Dataphin同步Hive数据源Textfile格式表,可能会遇到以下问题:
1. 数据中存在与列分隔符相同的字符,这样会导致读取数据错位。
2.数据中存在换行符,也会导致报错“脏数据”
问题原因
本身Hive Textfile格式文件读取数据时是按照列分隔符将一行数据分割多列
解决方案
重建表,使用ORC或者Qarquet格式,占用储存少、计算性能高。
这种情况只有重建表,因为对于一个文本文件的读取,没有任何依据能够识别到底就是新的一行还是数据中存在换行符,同样也无法识别该字符到底是列分隔符还是数据中的字符。
适用于
- Dataphin
- 管道任务
反馈
- 本页导读
文档反馈