HDFS输入组件用于读取HDFS数据源的数据。同步HDFS数据源的数据至其他数据源的场景中,您需要先配置HDFS输入组件读取的数据源,再配置数据同步的目标数据源。本文为您介绍如何配置HDFS输入组件。
前提条件
操作步骤
在Dataphin首页顶部菜单栏,选择研发 > 数据集成。
在集成页面顶部菜单栏选择项目(Dev-Prod模式需要选择环境)。
在左侧导航栏中单击离线集成,在离线集成列表中单击需要开发的离线管道,打开该离线管道的配置页面。
单击页面右上角的组件库,打开组件库面板。
在组件库面板左侧导航栏中需选择输入,在右侧的输入组件列表中找到HDFS组件,并拖动该组件至画布。
单击HDFS输入组件卡片中的
图标,打开HDFS输入配置对话框。
在HDFS输入配置对话框,配置参数。
参数
描述
参数
描述
步骤名称
即HDFS输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:
只能包含中文、字母、下划线(_)、数字。
长度不超过64个字符。
数据源
在数据源下拉列表中,展示当前Dataphin中所有HDFS类型的数据源,包括您已拥有同步读权限的数据源和没有同步读权限的数据源。 单击
图标,可复制当前数据源名称。
文件路径
填写文件所在路径。因数据源已经配置
NameNode
,无需填写hdfs://<namenode>:<port>
前缀,只需填写绝对路径。例如,/hadoop/input/file.txt
。系统访问的实际路径为:hdfs://<数据源已经配置的NameNode>:<数据源已经配置的IPC Port><填写的文件路径>
。文件类型
选择文件类型。 系统支持的文件类型包括Text、ORC、RC、Sequence、CSV、Parquet。
文件不存在时
当读取的文件不存在时,支持忽略或置任务失败。
忽略:当读取的文件不存在时,忽略该文件,并继续读取其他文件。
置任务失败:当读取的文件不存在时,终止该任务并置失败。
文件为空时
当读取的文件为空时,支持忽略或置任务失败。
忽略:当读取的文件为空时,忽略该文件,并继续读取其他文件。
置任务失败:当读取的文件为空时,终止该任务并置失败。
数据内容起始行
文件类型为Text或CSV时需配置该项。默认为1,从第一行开始为数据内容。若需忽略前N行,您可将数据内容起始行设置为N+1。
文件编码(非必填)
选择文件编码。系统支持的文件编码包括UTF-8和GBK。
字段分隔符(非必填)
文件类型为Text或CSV时需配置该项。请根据实际存储情况,填写文件内,内容字段之间的分隔符,如果不填写默认为(,)英文逗号。
压缩格式(非必填)
选择文件的压缩格式。系统支持的压缩格式包括:
zip
gzip
bzip2
输出字段
为您展示输出字段。 您可以手动添加输出字段:
单击批量添加,支持JSON、TEXT格式批量配置。
以JSON格式批量配置,例如:
[{ "index": 0, "type": "double", "name": "HDFS1" },
index表示引入的字段索引,type表示引入后的字段类型。 name表示字段名。
以TEXT格式批量配置,例如:
0,HDFS1,Double 1,HDFS2,String
行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)、点(.)。
列分隔符用于分隔字段名与字段类型,默认英文逗号(,)。
单击新建输出字段,根据页面提示填写字段及选择类型。
同时您也可以对已添加的字段执行如下操作:
单击操作列下的
图标,编辑已有的字段。
单击操作列下的
图标,删除已有的字段。
单击确认,完成HDFS输入组件的属性配置。
- 本页导读 (0)
- 前提条件
- 操作步骤