配置HDFS输入组件_智能数据建设与治理 Dataphin(Dataphin)-阿里云帮助中心

备案控制台登录注册

输入文档关键字查找

HDFS输入组件用于读取HDFS数据源的数据。同步HDFS数据源的数据至其他数据源的场景中，您需要先配置HDFS输入组件读取的数据源，再配置数据同步的目标数据源。本文为您介绍如何配置HDFS输入组件。

前提条件

已创建HDFS数据源，如何创建，请参见创建HDFS数据源。
进行HDFS输入组件属性配置的账号，需具备该数据源的同步读权限。如果没有权限，则需要申请数据源权限，详情请参见申请数据源权限。

操作步骤

在Dataphin首页顶部菜单栏，选择研发 > 数据集成。
在集成页面顶部菜单栏选择项目（Dev-Prod模式需要选择环境）。
在左侧导航栏中单击离线集成，在离线集成列表中单击需要开发的离线管道，打开该离线管道的配置页面。
单击页面右上角的组件库，打开组件库面板。
在组件库面板左侧导航栏中需选择输入，在右侧的输入组件列表中找到HDFS组件，并拖动该组件至画布。
单击HDFS输入组件卡片中的图标，打开HDFS输入配置对话框。

在HDFS输入配置对话框，配置参数。

参数	描述

参数	描述
步骤名称	即HDFS输入组件的名称。Dataphin自动生成步骤名称，您也可以根据业务场景修改。命名规则如下：只能包含中文、字母、下划线（_）、数字。长度不超过64个字符。
数据源	在数据源下拉列表中，展示当前Dataphin中所有HDFS类型的数据源，包括您已拥有同步读权限的数据源和没有同步读权限的数据源。单击图标，可复制当前数据源名称。对于没有同步读权限的数据源，您可以单击数据源后的申请，申请数据源的同步读权限。具体操作，请参见申请数据源权限。如果您还没有HDFS类型的数据源，单击新建数据源，创建数据源。具体操作，请参见创建HDFS数据源。
文件路径	填写文件所在路径。因数据源已经配置`NameNode`，无需填写`hdfs://<namenode>:<port>`前缀，只需填写绝对路径。例如，`/hadoop/input/file.txt`。系统访问的实际路径为：`hdfs://<数据源已经配置的NameNode>:<数据源已经配置的IPC Port><填写的文件路径>`。
文件类型	选择文件类型。系统支持的文件类型包括Text、ORC、RC、Sequence、CSV、Parquet。
文件不存在时	当读取的文件不存在时，支持忽略或置任务失败。忽略：当读取的文件不存在时，忽略该文件，并继续读取其他文件。置任务失败：当读取的文件不存在时，终止该任务并置失败。
文件为空时	当读取的文件为空时，支持忽略或置任务失败。忽略：当读取的文件为空时，忽略该文件，并继续读取其他文件。置任务失败：当读取的文件为空时，终止该任务并置失败。
数据内容起始行	文件类型为Text或CSV时需配置该项。默认为1，从第一行开始为数据内容。若需忽略前N行，您可将数据内容起始行设置为N+1。
文件编码（非必填）	选择文件编码。系统支持的文件编码包括UTF-8和GBK。
字段分隔符（非必填）	文件类型为Text或CSV时需配置该项。请根据实际存储情况，填写文件内，内容字段之间的分隔符，如果不填写默认为（,）英文逗号。
压缩格式（非必填）	选择文件的压缩格式。系统支持的压缩格式包括： zip gzip bzip2
输出字段	为您展示输出字段。您可以手动添加输出字段：单击批量添加，支持JSON、TEXT格式批量配置。以JSON格式批量配置，例如： `[{ "index": 0, "type": "double", "name": "HDFS1" },` 说明 index表示引入的字段索引，type表示引入后的字段类型。 name表示字段名。以TEXT格式批量配置，例如： `0,HDFS1,Double 1,HDFS2,String` 行分隔符用于分隔每个字段的信息，默认为换行符（\n），可支持换行符（\n）、分号（;）、点（.）。列分隔符用于分隔字段名与字段类型，默认英文逗号（,）。单击新建输出字段，根据页面提示填写字段及选择类型。同时您也可以对已添加的字段执行如下操作：单击操作列下的图标，编辑已有的字段。单击操作列下的图标，删除已有的字段。

单击确认，完成HDFS输入组件的属性配置。

上一篇：配置FTP输入组件下一篇：配置Hive输入组件

该文章对您有帮助吗？

本页导读（0）

前提条件

操作步骤

点击开启售前

在线咨询服务

你好，我是AI助理

可以解答问题、推荐解决方案等