本地文件输入组件支持将本地Text、Excel(xls、xlsx)、CSV格式的文件上传到Dataphin中,并支持将数据同步至其他数据源的场景中。本文为您介绍如何配置本地文件输入组件。
使用限制
仅支持手动任务配置本地文件输入组件。
操作步骤
在Dataphin首页顶部菜单栏,选择研发 > 数据集成。
在集成页面顶部菜单栏选择项目(Dev-Prod模式需要选择环境)。
在左侧导航栏中单击离线集成,在离线集成列表中单击需要开发的离线管道,打开该离线管道的配置页面。
单击页面右上角的组件库,打开组件库面板。
在组件库面板左侧导航栏中需选择输入,在右侧的输入组件列表中找到本地文件组件,并拖动该组件至画布。
单击该组件卡片中的图标,打开本地文件输入配置对话框。
在本地文本输入配置对话框,支持选择csv、text、xls、xlsx的文件类型,各配置说明如下:
text文件类型
参数
描述
步骤名称
即本地文件输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:
仅包含中文、英文字母大小写、下划线(_)和数字。
长度不超过64个字符。
文件类型
选择text的文件类型。
文件路径
单击选择文件或拖动目标文件至文件路径区域。
说明仅支持上传.txt格式的文件,文件大小不超过500MB。
首行内容类型
支持数据内容和字段名称。
首行内容起始行
首行内容选择为字段名称时,数据内容起始行不可小于2。
首行内容选择为数据内容时,数据内容起始行不可小于1。
行分隔符、字段分隔符(非必填)
行分隔符:文件行分隔符,如不填写,默认为
\n
。如果为其他字符,可输入后单击解析。字段分隔符:文件内字段分隔符,如不填写,默认为半角逗号(,)。
文件编码
选择文件编码的方式。系统支持UTF-8和GBK方式。
高级配置
请输入读取控制配置项。示例代码如下:
{ "textReaderConfig":{ "caseSensitive":true, "useTextQualifier":false, "textQualifier":"\"", "trimWhitespace":false } }
新建输出字段
为您展示输出字段。
批量添加字段。
单击批量添加。
以JSON格式批量配置。示例如下:
[{ "index": 0, "name": "cf1a", "type": "String" }, { "index": 1, "name": "cf1b", "type": "String" }]
说明index表示指定对象的列编号,name表示引入的字段名称,type表示引入后的字段类型。 例如:
"name":"user_id","type":"String"
表示把字段名为user_id的字段引入,设置字段类型为String。以TEXT格式批量配置,示例如下:
0,cf1a,String 1,cf1b,String
行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)、半角句号(.)。
列分隔符用于分隔字段名与字段类型,默认为半角逗号(,)。
单击确定。
新建输出字段。
单击新建输出字段,根据页面提示填写来源序号、字段及选择类型。Text文件类型的来源序号必须填写该字段所在列的数字序号,序号从0开始。
管理输出字段。
您可以对已添加的字段执行如下操作:
单击拖动字段旁的图标,可调换字段所处位置。
单击操作列下的图标,编辑已有的字段。
单击操作列下的图标,删除已有的字段。
csv文件类型
参数
描述
步骤名称
即本地文件输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:
仅包含中文、英文字母大小写、下划线(_)和数字。
长度不超过64个字符。
文件类型
选择csv文件类型。
文件路径
单击选择文件或拖动目标文件至文件路径区域。
说明仅支持上传csv类型的文件,文件大小不超过500MB。
字符分隔符
文件内字段分隔符,如不填写,默认为半角逗号(,)。
文件编码
选择文件编码的方式。系统支持UTF-8和GBK方式。
首行内容类型
可选择数据内容或字段名称。
数据内容起始行
首行内容选择为字段名称时,数据内容起始行不可小于2。
首行内容选择为数据内容时,数据内容起始行不可小于1。
新建输出字段
为您展示输出字段。
批量添加字段。
单击批量添加。
以JSON格式批量配置。示例如下:
[{ "index": 0, "name": "cf1a", "type": "String" }, { "index": 1, "name": "cf1b", "type": "String" }]
说明index表示指定对象的列编号,name表示引入的字段名称,type表示引入后的字段类型。 例如:
"name":"user_id","type":"String"
表示把字段名为user_id的字段引入,设置字段类型为String。以TEXT格式批量配置,示例如下:
0,cf1a,String 1,cf1b,String
行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)和半角句号(.)。
列分隔符用于分隔字段名与字段类型,默认为半角逗号(,)。
单击确定。
新建输出字段。
单击新建输出字段,根据页面提示填写来源序号、字段及选择类型。CSV文件类型的来源序号必须填写该字段所在列的数字序号,序号从0开始。
管理输出字段。
您可以对已添加的字段执行如下操作:
单击拖动字段旁的图标,可调换字段所处位置。
单击操作列下的图标,编辑已有的字段。
单击操作列下的图标,删除已有的字段。
xls或xlsx文件类型
参数
描述
步骤名称
即本地文件输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:
仅包含中文、英文字母大小写、下划线(_)和数字。
长度不超过64个字符。
文件类型
选择xls或xlsx文件类型。
文件路径
单击选择文件或拖动目标文件至文件路径区域。
说明当文件类型选择为xls时,仅支持上传.xls格式的文件;当文件类型选择为xlsx时,仅支持上传.xlsx格式的文件,文件大小都不能超过500MB。
系统解析仅支持50M,若文件大小超过50M,暂不支持解析输出字段,请手动新建输出字段。
sheet选择
支持按名称或按索引进行选择。
按名称:输入要读取的sheet名称。
按索引:输入要读取的sheet索引,索引从0开始。
首行内容类型
支持数据内容和字段名称。
数据内容起始行
首行内容选为字段名称时,数据内容起始行不可小于2;首行内容选为数据内容时,数据内容起始行不可小于1。
数据内容结束行
数据内容结束行不可大于起始行。如不指定,则默认读到有数据的最后一行。
导出sheet名
可选是否导出数据的来源sheet。选择导出后,输出字段将新增来源sheet字段。导出内容为
{文件名}-{sheet名}
。文件编码
选择文件编码的方式。系统支持UTF-8和GBK方式。
输出字段
为您展示输出字段。
批量添加字段。
单击批量添加。
以JSON格式批量配置。示例如下:
[{ "index": 0, "name": "cf1a", "type": "String" }, { "index": 1, "name": "cf1b", "type": "String" }]
说明index表示指定对象的列编号,name表示引入的字段名称,type表示引入后的字段类型。 例如:
"name":"user_id","type":"String"
表示把字段名为user_id的字段引入,设置字段类型为String。以TEXT格式批量配置,示例如下:
0,cf1a,String 1,cf1b,String
行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)和半角句号(.)。
列分隔符用于分隔字段名与字段类型,默认半角逗号(,)。
单击确定。
新建输出字段。
单击新建输出字段,根据页面提示填写来源序号、字段及选择类型。
管理输出字段。
您可以对已添加的字段执行如下操作:
单击拖动字段旁的图标,可调换字段所处位置。
单击操作列下的图标,编辑已有的字段。
单击操作列下的图标,删除已有的字段。
单击确认,完成本地文本输入组件的属性配置。