文档

配置本地文件输入组件

更新时间:

本地文件输入组件支持将本地Text、Excel(xls、xlsx)、CSV格式的文件上传到Dataphin中,并支持将数据同步至其他数据源的场景中。本文为您介绍如何配置本地文件输入组件。

使用限制

仅支持手动任务配置本地文件输入组件。

操作步骤

  1. 请参见离线管道组件开发入口,进入离线单条管道脚本的开发页面。

  2. 按照以下操作指引,进入本地文件输入配置对话框。

    单击组件库->单击输入->拖动本地文件输入组件至画布->单击image配置图标。

    image

  3. 本地文本输入配置对话框,支持选择csv、text、xls、xlsx的文件类型,各配置说明如下:

    • text文件类型。

      参数

      描述

      步骤名称

      即本地文件输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:

      • 只能包含汉字、字母、下划线(_)、数字。

      • 不能超过64个字符。

      文件类型

      选择text的文件类型。

      文件路径

      单击选择文件,上传text格式的文件。

      说明

      .类型的文件,文件不超过500MB。

      首行内容类型

      支持数据内容和字段名称。

      首行内容起始行

      首行内容选为字段名称时,数据内容起始行不可小于2;首行内容选为数据内容时,数据内容起始行不可小于1。

      行分隔符字段分隔符

      非必填。

      行分隔符文件行分隔符,如不填写,默认为\n

      字段分隔符:文件内字段分隔符,如不填写,默认为英文逗号(,)。

      文件编码

      选择文件编码的方式。系统支持UTF-8和GBK方式。

      高级配置

      请输入读取控制配置项。示例代码如下:

      {
       "textReaderConfig":{
       "caseSensitive":true,
       "useTextQualifier":false,
       "textQualifier":"\"",
       "trimWhitespace":false
       }
      }

      新建输出字段

      为您展示输出字段。

      • 批量添加字段。

        1. 单击批量添加

          • 以JSON格式批量配置。示例如下:

            // 示例:
             [{
              "index": 0,
              "name": "cf1a",
              "type": "String"
             },
             {
              "index": 1,
              "name": "cf1b",
              "type": "String"
             }]
            说明

            index表示指定对象的列编号,name表示引入的字段名称,type表示引入后的字段类型。 例如:"name":"user_id","type":"String" 表示把字段名为user_id的字段引入,设置字段类型为String。

          • 以TEXT格式批量配置,示例如下:

            // 示例:
            0,cf1a,String
            1,cf1b,String
            • 行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)、点(.)。

            • 列分隔符用于分隔字段名与字段类型,默认英文逗号(,)。

        2. 单击确定

      • 新建输出字段

        单击新建输出字段,根据页面提示填写来源序号字段及选择类型

      • 管理输出字段。

        您可以对已添加的字段执行如下操作:

        • 单击拖动字段旁的image图标,可调换字段所处位置。

        • 单击操作列下的agag图标,编辑已有的字段。

        • 单击操作列下的agfag图标,删除已有的字段。

    • csv文件类型。

      参数

      描述

      步骤名称

      即本地文件输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:

      • 只能包含汉字、字母、下划线(_)、数字。

      • 不能超过64个字符。

      文件类型

      选择csv文件类型。

      文件路径

      单击选择文件,上传csv格式的文件。

      字符分隔符

      文件内字段分隔符,如不填写,默认为英文逗号(,)。

      文件编码

      选择文件编码的方式。系统支持UTF-8和GBK方式。

      首行内容类型

      支持数据内容和字段名称。

      数据内容起始行

      首行内容选为字段名称时,数据内容起始行不可小于2;首行内容选为数据内容时,数据内容起始行不可小于1。

      新建输出字段

      为您展示输出字段。

      • 批量添加字段。

        1. 单击批量添加

          • 以JSON格式批量配置。示例如下:

            // 示例:
             [{
              "index": 0,
              "name": "cf1a",
              "type": "String"
             },
             {
              "index": 1,
              "name": "cf1b",
              "type": "String"
             }]
            说明

            index表示指定对象的列编号,name表示引入的字段名称,type表示引入后的字段类型。 例如:"name":"user_id","type":"String" 表示把字段名为user_id的字段引入,设置字段类型为String。

          • 以TEXT格式批量配置,示例如下:

            // 示例:
            0,cf1a,String
            1,cf1b,String
            • 行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)、点(.)。

            • 列分隔符用于分隔字段名与字段类型,默认英文逗号(,)。

        2. 单击确定

      • 新建输出字段

        单击新建输出字段,根据页面提示填写来源序号字段及选择类型

      • 管理输出字段。

        您可以对已添加的字段执行如下操作:

        • 单击拖动字段旁的image图标,可调换字段所处位置。

        • 单击操作列下的agag图标,编辑已有的字段。

        • 单击操作列下的agfag图标,删除已有的字段。

    • xls或xlsx文件类型。

      参数

      描述

      步骤名称

      即本地文件输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:

      • 只能包含汉字、字母、下划线(_)、数字。

      • 不能超过64个字符。

      文件类型

      选择xls、xlsx文件类型。

      文件路径

      单击选择文件,上传xls、xlsx格式的文件。

      说明

      xls和xlsx类型的文件,文件不超过500MB。

      sheet选择

      支持按名称或按索引进行选择。

      • 按名称:输入要读取的sheet名称。

      • 按索引:输入要读取的sheet索引,索引从0开始。

      首行内容类型

      支持数据内容和字段名称。

      数据内容起始行

      首行内容选为字段名称时,数据内容起始行不可小于2;首行内容选为数据内容时,数据内容起始行不可小于1。

      数据内容结束行

      数据内容结束行不可大于起始行。如不指定,则默认读到有数据的最后一行。

      导出sheet名

      可选是否导出数据的来源sheet。选择导出后,输出字段将新增来源sheet字段。导出内容为{文件名}-{sheet名}

      文件编码

      选择文件编码的方式。系统支持UTF-8和GBK方式。

      输出字段

      为您展示输出字段。

      • 批量添加字段。

        1. 单击批量添加

          • 以JSON格式批量配置。示例如下:

            // 示例:
             [{
              "index": 0,
              "name": "cf1a",
              "type": "String"
             },
             {
              "index": 1,
              "name": "cf1b",
              "type": "String"
             }]
            说明

            index表示指定对象的列编号,name表示引入的字段名称,type表示引入后的字段类型。 例如:"name":"user_id","type":"String" 表示把字段名为user_id的字段引入,设置字段类型为String。

          • 以TEXT格式批量配置,示例如下:

            // 示例:
            0,cf1a,String
            1,cf1b,String
            • 行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)、点(.)。

            • 列分隔符用于分隔字段名与字段类型,默认英文逗号(,)。

        2. 单击确定

      • 新建输出字段

        单击新建输出字段,根据页面提示填写来源序号字段及选择类型

      • 管理输出字段。

        您可以对已添加的字段执行如下操作:

        • 单击拖动字段旁的image图标,可调换字段所处位置。

        • 单击操作列下的agag图标,编辑已有的字段。

        • 单击操作列下的agfag图标,删除已有的字段。

  4. 单击确认,完成本地文本输入组件的属性配置。

  • 本页导读