配置FTP输入组件
FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内,进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。
前提条件
已创建FTP数据源,详情请参见创建FTP数据源。
进行FTP输入组件属性配置的账号,需具备该数据源的同步读权限。如果没有权限,则需要申请数据源权限,详情请参见申请、续期和交还数据源权限。
操作步骤
请参见离线管道组件开发入口,进入离线单条管道脚本的开发页面。
按照下图操作指引,进入FTP输入配置对话框。
在FTP输入配置对话框,配置参数。
参数
说明
步骤名称
根据当前组件的使用场景,填写名称。
数据源
选择数据源。选取Dataphin系统中已配置的数据源,且数据源需同时具备以下两个条件:
数据源类型为FTP数据源、SFTP数据源、FTPS数据源。
执行属性配置的账号具有该数据源的同步读权限,如果没有权限,则需要申请数据源权限,详情请参见申请、续期和交还数据源权限。
同时您可以单击数据源后的新建,进入规划模块添加数据源,详情请参见创建FTP数据源。
文件路径
填写文件路径。支持多个文件路径输入,用(;)分割。支持通配符,例如:指定
/dataphin/*
代表读取dataphin目录下游所有的文件。文件类型
选择目标路径下文件的类型。 系统支持的文件类型包括Text、CSV、xls、xlsx。
选择Text、CSV文件类型,配置请参见Text和CSV参数配置说明。
选择xls、xlsx文件类型,配置请参见xls和xlsx参数配置说明。
单击确认。
Text和CSV参数配置说明
参数 | 说明 |
文件不存在时 |
|
数据内容起始行 | 设置输入组件读取数据的起始行。默认为1,从第一行开始为数据内容。若需忽略前N行,则将数据内容起始行设置为N+1。 |
切分方式 | Text支持分隔符切分和字段长度切分,CSV支持分隔符切分。
|
行分隔符 | 填写文件存储行分隔符。如果您没有填写,则系统默认将行分隔符填写为换行符号(\n)。 说明 Text类型不支持自定义行分隔符。 |
字段分隔符 | 切分方式选择分隔符切分时,需要填写文件存储字段分隔符。如果您没有填写,则系统默认将字段分隔符填写为英文逗号(,)。 |
文件编码 | 选择文件编码。系统支持的文件编码包括UTF-8和GBK。 |
压缩格式 | 如果文件有压缩,请选择对应的压缩格式,以便Dataphin进行解压处理。 |
更多配置 | 输入读取数据的其他控制配置项。例如使用textReaderConfig控制text文件的读取,配置示例如下。
|
输出字段 | 为您展示输出字段。 您可以手动添加输出字段:
同时您也可以对已添加的字段执行如下操作:
|
xls和xlsx参数配置说明
参数 | 说明 |
文件不存在时 |
|
sheet选择 | 支持按名称和按索引两种方式。若读取多个sheet,则需保持数据格式一致。
|
数据内容起始行 | 设置输入组件读取数据的起始行。默认为1,从第一行开始为数据内容。若需忽略前N行,则将数据内容起始行设置为N+1。 |
数据内容结束行 | 若不指定行数,则读取到最后一行数据,数据内容结束行不少于数据内容起始行。 |
导出sheet名 | 可选择导出或不导出。选择导出则新增一个导出字段,字段内容为该行数据的来源sheet名称。 |
文件编码 | 选择文件编码。系统支持的文件编码包括UTF-8和GBK。 |
压缩格式 | 如果文件有压缩,请选择对应的压缩格式,以便Dataphin进行解压处理。 |
输出字段 | 为您展示输出字段。 您可以手动添加输出字段: 说明 切分方式为字段长度切分时,您可以单击切分效果预览,并在对话框中输入测试字符串,起始字符位置、结束字符位置,进行切分效果预览。
同时您也可以对已添加的字段执行如下操作:
|