配置本地文件输入组件

本地文件输入组件支持将本地Text、Excel(xls、xlsx)、CSV格式的文件上传到Dataphin中,并支持将数据同步至其他数据源的场景中。本文为您介绍如何配置本地文件输入组件。

使用限制

仅支持手动任务配置本地文件输入组件。

操作步骤

  1. 在Dataphin首页顶部菜单栏,选择研发 > 数据集成

  2. 在集成页面顶部菜单栏选择项目(Dev-Prod模式需要选择环境)。

  3. 在左侧导航栏中单击离线集成,在离线集成列表中单击需要开发的离线管道,打开该离线管道的配置页面。

  4. 单击页面右上角的组件库,打开组件库面板。

  5. 组件库面板左侧导航栏中需选择输入,在右侧的输入组件列表中找到本地文件组件,并拖动该组件至画布。

  6. 单击该组件卡片中的image图标,打开本地文件输入配置对话框。

    image

  7. 本地文本输入配置对话框,支持选择csv、text、xls、xlsx的文件类型,各配置说明如下:

    text文件类型

    参数

    描述

    步骤名称

    即本地文件输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:

    • 仅包含中文、英文字母大小写、下划线(_)和数字。

    • 长度不超过64个字符。

    文件类型

    选择text的文件类型。

    文件路径

    单击选择文件或拖动目标文件至文件路径区域。

    说明

    仅支持上传.txt格式的文件,文件大小不超过500MB

    首行内容类型

    支持数据内容字段名称

    首行内容起始行

    • 首行内容选择为字段名称时,数据内容起始行不可小于2。

    • 首行内容选择为数据内容时,数据内容起始行不可小于1。

    行分隔符字段分隔符(非必填)

    行分隔符文件行分隔符,如不填写,默认为\n。如果为其他字符,可输入后单击解析

    字段分隔符:文件内字段分隔符,如不填写,默认为半角逗号(,)。

    文件编码

    选择文件编码的方式。系统支持UTF-8GBK方式。

    高级配置

    请输入读取控制配置项。示例代码如下:

    {
     "textReaderConfig":{
     "caseSensitive":true,
     "useTextQualifier":false,
     "textQualifier":"\"",
     "trimWhitespace":false
     }
    }

    新建输出字段

    为您展示输出字段。

    • 批量添加字段。

      1. 单击批量添加

        • 以JSON格式批量配置。示例如下:

          [{
            "index": 0,
            "name": "cf1a",
            "type": "String"
           },
           {
            "index": 1,
            "name": "cf1b",
            "type": "String"
           }]
          说明

          index表示指定对象的列编号,name表示引入的字段名称,type表示引入后的字段类型。 例如:"name":"user_id","type":"String" 表示把字段名为user_id的字段引入,设置字段类型为String。

        • 以TEXT格式批量配置,示例如下:

          0,cf1a,String
          1,cf1b,String
          • 行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)、半角句号(.)。

          • 列分隔符用于分隔字段名与字段类型,默认为半角逗号(,)。

      2. 单击确定

    • 新建输出字段

      单击新建输出字段,根据页面提示填写来源序号字段及选择类型。Text文件类型的来源序号必须填写该字段所在列的数字序号,序号从0开始。

    • 管理输出字段。

      您可以对已添加的字段执行如下操作:

      • 单击拖动字段旁的image图标,可调换字段所处位置。

      • 单击操作列下的agag图标,编辑已有的字段。

      • 单击操作列下的agfag图标,删除已有的字段。

    csv文件类型

    参数

    描述

    步骤名称

    即本地文件输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:

    • 仅包含中文、英文字母大小写、下划线(_)和数字。

    • 长度不超过64个字符。

    文件类型

    选择csv文件类型。

    文件路径

    单击选择文件或拖动目标文件至文件路径区域。

    说明

    仅支持上传csv类型的文件,文件大小不超过500MB

    字符分隔符

    文件内字段分隔符,如不填写,默认为半角逗号(,)。

    文件编码

    选择文件编码的方式。系统支持UTF-8GBK方式。

    首行内容类型

    可选择数据内容字段名称

    数据内容起始行

    • 首行内容选择为字段名称时,数据内容起始行不可小于2。

    • 首行内容选择为数据内容时,数据内容起始行不可小于1。

    新建输出字段

    为您展示输出字段。

    • 批量添加字段。

      1. 单击批量添加

        • 以JSON格式批量配置。示例如下:

          [{
            "index": 0,
            "name": "cf1a",
            "type": "String"
           },
           {
            "index": 1,
            "name": "cf1b",
            "type": "String"
           }]
          说明

          index表示指定对象的列编号,name表示引入的字段名称,type表示引入后的字段类型。 例如:"name":"user_id","type":"String" 表示把字段名为user_id的字段引入,设置字段类型为String。

        • 以TEXT格式批量配置,示例如下:

          0,cf1a,String
          1,cf1b,String
          • 行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)和半角句号(.)。

          • 列分隔符用于分隔字段名与字段类型,默认为半角逗号(,)。

      2. 单击确定

    • 新建输出字段

      单击新建输出字段,根据页面提示填写来源序号字段及选择类型。CSV文件类型的来源序号必须填写该字段所在列的数字序号,序号从0开始。

    • 管理输出字段。

      您可以对已添加的字段执行如下操作:

      • 单击拖动字段旁的image图标,可调换字段所处位置。

      • 单击操作列下的agag图标,编辑已有的字段。

      • 单击操作列下的agfag图标,删除已有的字段。

    xls或xlsx文件类型

    参数

    描述

    步骤名称

    即本地文件输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:

    • 仅包含中文、英文字母大小写、下划线(_)和数字。

    • 长度不超过64个字符。

    文件类型

    选择xls或xlsx文件类型。

    文件路径

    单击选择文件或拖动目标文件至文件路径区域。

    说明
    • 当文件类型选择为xls时,仅支持上传.xls格式的文件;当文件类型选择为xlsx时,仅支持上传.xlsx格式的文件,文件大小都不能超过500MB

    • 系统解析仅支持50M,若文件大小超过50M,暂不支持解析输出字段,请手动新建输出字段。

    sheet选择

    支持按名称或按索引进行选择。

    • 按名称:输入要读取的sheet名称。

    • 按索引:输入要读取的sheet索引,索引从0开始。

    首行内容类型

    支持数据内容和字段名称。

    数据内容起始行

    首行内容选为字段名称时,数据内容起始行不可小于2;首行内容选为数据内容时,数据内容起始行不可小于1。

    数据内容结束行

    数据内容结束行不可大于起始行。如不指定,则默认读到有数据的最后一行。

    导出sheet名

    可选是否导出数据的来源sheet。选择导出后,输出字段将新增来源sheet字段。导出内容为{文件名}-{sheet名}

    文件编码

    选择文件编码的方式。系统支持UTF-8GBK方式。

    输出字段

    为您展示输出字段。

    • 批量添加字段。

      1. 单击批量添加

        • 以JSON格式批量配置。示例如下:

           [{
            "index": 0,
            "name": "cf1a",
            "type": "String"
           },
           {
            "index": 1,
            "name": "cf1b",
            "type": "String"
           }]
          说明

          index表示指定对象的列编号,name表示引入的字段名称,type表示引入后的字段类型。 例如:"name":"user_id","type":"String" 表示把字段名为user_id的字段引入,设置字段类型为String。

        • 以TEXT格式批量配置,示例如下:

          0,cf1a,String
          1,cf1b,String
          • 行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)和半角句号(.)。

          • 列分隔符用于分隔字段名与字段类型,默认半角逗号(,)。

      2. 单击确定

    • 新建输出字段

      单击新建输出字段,根据页面提示填写来源序号字段及选择类型

    • 管理输出字段。

      您可以对已添加的字段执行如下操作:

      • 单击拖动字段旁的image图标,可调换字段所处位置。

      • 单击操作列下的agag图标,编辑已有的字段。

      • 单击操作列下的agfag图标,删除已有的字段。

  8. 单击确认,完成本地文本输入组件的属性配置。