配置FTP输入组件

FTP输入组件适用于从FTP中将数据读取至大数据平台对接的存储系统内,进行数据整合和再加工。本文为您介绍如何配置FTP输入组件。

前提条件

操作步骤

  1. 请参见离线管道组件开发入口,进入离线单条管道脚本的开发页面。

  2. 按照以下操作指引,进入FTP输入配置对话框。

    单击组件库->单击输入->拖动FTP输入组件至画布->单击配置image图标

    image

  3. FTP输入配置对话框,配置参数。

    FTP输入组件支持的文件类型包括TextCSVxlsxlsx。不同文件类型配置不同,详情如下:

    Text和CSV参数配置说明

    参数

    说明

    基本配置

    步骤名称

    根据当前组件的使用场景,填写名称。命名规则如下:

    • 只能包含汉字、字母、下划线(_)、数字。

    • 不能超过64个字符。

    数据源

    选择数据源。选取Dataphin系统中已配置的数据源,且数据源需同时具备以下两个条件:

    • 数据源类型为FTP数据源SFTP数据源FTPS数据源

    • 执行属性配置的账号具有该数据源的同步读权限,如果没有权限,则需要申请数据源权限,详情请参见申请、续期和交还数据源权限

    同时您可以单击数据源后的新建,进入管理中心模块添加数据源,详情请参见创建FTP数据源

    文件路径

    填写文件路径。支持输入多个文件路径,用英文半角分号(;)分割,并且支持使用通配符。例如,指定/dataphin/*代表读取dataphin目录下游所有的文件。

    文件类型

    选择TextCSV文件类型。

    标记完成文件检查

    标记完成文件检查,可在读取前检查文件数据是否已经准备好被读取,默认关闭

    1. 开启后,单击检查配置

    2. 标记完成文件检查配置对话框中,配置检查参数。

      • 标记完成文件路径:填写需要检查的标记完成文件路径,支持系统参数、全局参数与跨节点参数。例如,/${check}/dataphin

      • 检查间隔(秒):填写每次检查文件的间隔时间,默认60秒。

      • 检查持续时长(分钟):填写每次检查文件的持续时间,默认60分钟

        重要
        • 检查持续时长和数据传输的时长将一起被计算为集成任务运行时长,请注意检查持续时长与运行超时配置。检查期间将持续占用资源,请合理配置。

        • 如果检查时间超过任务超时时间,任务将被强制结束。

      • 检查失败处理策略:文件检查任务检查失败后,将不会实际进行数据抽取与写入。针对文件检查任务检查失败的处理策略支持置任务失败置任务成功。

        • 置任务失败:检查失败后,系统将检查任务置为失败状态,不会执行集成任务。

        • 置任务成功:检查失败后,系统将检查任务置为成功状态,继续执行后续的集成任务。

    3. 单击确定,完成标记完成文件检查配置。

    文件不存在时

    支持忽略置任务失败策略。若开启标记完成文件检查,则不支持配置文件不存在时。

    • 忽略:当读取的文件不存在时,忽略该文件,并继续读取其他文件。

    • 置任务失败:当读取的文件不存在时,终止该任务并置失败。

    数据内容起始行

    设置输入组件读取数据的起始行。默认为1,从第一行开始为数据内容。若需忽略前N行,则将数据内容起始行设置为N+1。

    高级配置

    切分方式

    Text支持分隔符切分字段长度切分,CSV支持分隔符切分。

    • 分隔符切分:将会根据字段分隔符行分隔符切分行与字段。

    • 字段长度切分:文件的每一行将被视为一个长String字符串,按起始和结束的字符位置提取字段。

    字段分隔符

    切分方式选择分隔符切分时,需要填写文件存储字段分隔符。如果您没有填写,则系统默认将英文逗号(,)作为字段分隔符。

    行分隔符

    切分方式为字段长度切分时,不支持配置行分隔符。如果您没有填写,则系统默认将换行符号(\n)作为行分隔符; 文件类型为Text时,不支持同时配置行分隔符和更多配置的textReaderConfig

    文件编码

    选择文件编码。系统支持的文件编码包括UTF-8GBK

    空值转换

    配置表示NULL的字符串,将来源数据中的该字符串替换为NULL。如果未配置该参数,则不会对来源数据做特殊处理。

    压缩格式

    如果文件有压缩,请选择对应的压缩格式,以便Dataphin进行解压处理。支持的压缩格式包括zip、gzip、bzip2、lzo、lzo-deflate、hadoop-snappy、framing-snappy。

    更多配置

    输入读取数据的其他控制配置项。例如使用textReaderConfig控制Text文件的读取,配置示例如下。

    {
      "textReaderConfig":{
      "useTextQualifier":false, //是否存在限定符
      "textQualifier":"\"",//配置限定符
      "caseSensitive":true, //限定符是否区分大小写
      "trimWhitespace":false //是否去除每列内容前后的空白符
      }
    }

    输出字段

    为您展示输出字段。 您可以手动添加输出字段:

    • 批量添加输出字段。

      • 格式:单击批量添加 ,支持以JSON格式和TEXT格式批量配置。

        • JSON格式:

          // 示例:
           [{
             "startPos": 0,
             "endPos": 10,
             "name": "user_id",
             "type": "String"
            },
            {
             "startPos": 11,
             "endPos": 15,
             "name": "user_name",
             "type": "String"
            }]
        • TEXT格式:

          // 示例:
          0,10,user_id,String
          11,15,user_name,String
      • 切分方式:文件类型为Text且切分方式为字段长度切分时,支持配置批量添加的切分方式,包括按字段起始位置按字段长度

        • 按字段起始位置:第一位数字表示字段起始字符位置,第二位数字表示字段结束位置,后两位分别表示字段名与字段类型。例如,Text格式0,10,user_id,String, 表示把文件每行的第1位到第11位字符作为一个字段引入,字段名为user_id,字段类型为String

        • 按字段长度指定:第一位数字表示字段长度,后两位分别表示字段名与字段类型。例如,Text格式11,user_id,String表示把长度为11的一个字段引入,字段名为user_id,字段类型为String。下一个字段接着上一个字段后的第一个字符开始计算长度。

      • 行分隔符列分隔符:批量添加格式TEXT时,支持配置行分隔符和列分隔符。行分隔符用于分隔每个字段的信息,默认为换行符\n,可支持\n ; . ;列分隔符用于分隔字段名与字段类型,默认为英文逗号(,)。

    • 切分效果预览。

      文件类型为Text且切分方式为字段长度切分时,支持预览切分效果。

      1. 单击切分效果预览

      2. 在切分效果预览对话框中,输入测试字符串并单击测试,即可查看切分效果。如下图所示:

        image

    • 新建输出字段。

      单击新建输出字段,根据页面提示填写来源序号字段及选择类型。Text和CSV文件类型的来源序号必须填写该字段所在列的数字序号,序号从0开始。

    • 管理输出字段。

      对已添加的字段,您可以执行如下操作:

      • 单击操作列下的agag图标,编辑已有的字段。

      • 单击操作列下的agfag图标,删除已有的字段。

    xls和xlsx参数配置说明

    参数

    说明

    步骤名称

    根据当前组件的使用场景,填写名称。命名规则如下:

    • 只能包含汉字、字母、下划线(_)、数字。

    • 不能超过64个字符。

    数据源

    选择数据源。选取Dataphin系统中已配置的数据源,且数据源需同时具备以下两个条件:

    • 数据源类型为FTP数据源SFTP数据源FTPS数据源

    • 执行属性配置的账号具有该数据源的同步读权限,如果没有权限,则需要申请数据源权限,详情请参见申请、续期和交还数据源权限

    同时您可以单击数据源后的新建,进入规划模块添加数据源,详情请参见创建FTP数据源

    文件路径

    填写文件路径。支持多个文件路径输入,用英文半角分号(;)分割。支持通配符,例如,指定/dataphin/*代表读取dataphin目录下游所有的文件。

    文件类型

    选择xlsxlsx文件类型。

    标记完成文件检查

    标记完成文件检查,可在读取前检查文件数据是否已经准备好被读取,默认关闭

    1. 开启后,单击检查配置

    2. 标记完成文件检查配置对话框中,配置检查参数。

      • 标记完成文件路径:填写需要检查的标记完成文件路径,支持系统参数、全局参数与跨节点参数。例如,/${check}/dataphin

      • 检查间隔(秒):填写每次检查文件的间隔时间,默认60秒。

      • 检查持续时长(分钟):填写每次检查文件的持续时间,默认60分钟

        重要
        • 检查持续时长和数据传输的时长将一起被计算为集成任务运行时长,请注意检查持续时长与运行超时配置。检查期间将持续占用资源,请合理配置。

        • 如果检查时间超过任务超时时间,任务将被强制结束。

      • 检查失败处理策略:文件检查任务检查失败后,将不会实际进行数据抽取与写入。针对文件检查任务检查失败的处理策略支持置任务失败置任务成功。

        • 置任务失败:检查失败后,系统将检查任务置为失败状态,不会执行集成任务。

        • 置任务成功:检查失败后,系统将检查任务置为成功状态,继续执行后续的集成任务。

    3. 单击确定,完成标记完成文件检查配置。

    文件不存在时

    支持忽略置任务失败策略。若开启标记完成文件检查,则不支持配置文件不存在时。

    • 忽略:当读取的文件不存在时,忽略该文件,并继续读取其他文件。

    • 置任务失败:当读取的文件不存在时,终止该任务并置失败。

    sheet选择

    支持按名称按索引两种方式。若读取多个sheet,则需保持数据格式一致。

    • sheet名称:可读取多张sheet,用英文逗号(,)隔开,也可以输入*读取所有sheet。*和英文逗号不可混用。例如,sheet1,sheet2

    • sheet索引:可读取多张sheet,用英文逗号(,)隔开,也可以输入*读取所有sheet。*和英文逗号不可混用。例如,可以用0,3,7-9指定单张或连续的sheet。

    数据内容起始行

    设置输入组件读取数据的起始行。默认为1,从第一行开始为数据内容。若需忽略前N行,则将数据内容起始行设置为N+1

    数据内容结束行

    若不指定行数,则读取到最后一行数据,数据内容结束行不少于数据内容起始行

    导出sheet名

    可选择导出不导出。选择导出则新增一个导出字段,字段内容为该行数据的来源sheet名称。

    文件编码

    选择文件编码。系统支持的文件编码包括UTF-8GBK

    空值转换

    配置表示NULL的字符串,将来源数据中的该字符串替换为NULL。如果未配置该参数,则不会对来源数据做特殊处理。

    压缩格式

    如果文件有压缩,请选择对应的压缩格式,以便Dataphin进行解压处理。支持的压缩格式包括zip、gzip、bzip2、lzo、lzo-deflate、hadoop-snappy、framing-snappy。

    输出字段

    为您展示输出字段。 您可以手动添加输出字段:

    • 批量添加输出字段。

      • 单击批量添加 ,支持以JSON格式和TEXT格式批量配置。

        • JSON格式:

          // 示例:
           [{
             "startPos": 0,
             "endPos": 10,
             "name": "user_id",
             "type": "String"
            },
            {
             "startPos": 11,
             "endPos": 15,
             "name": "user_name",
             "type": "String"
            }]
        • TEXT格式:

          行分隔符列分隔符:批量添加格式TEXT时,支持配置行分隔符和列分隔符。行分隔符用于分隔每个字段的信息,默认为换行符\n,可支持\n ; . ;列分隔符用于分隔字段名与字段类型,默认为英文逗号(,)。

          // 示例:
          0,10,user_id,String
          11,15,user_name,String
    • 新建输出字段。

      单击新建输出字段,根据页面提示填写来源序号字段及选择类型。xls和xlsx文件类型的来源序号必须填写该字段所在列的大写字母序号,也可填写该列的数字序号,数字序号从0开始。填写小写字母序号时,系统会自动转化为大写字母序号。同时,如果选择的是导出sheet名,则来源序号为(-),不支持修改。

    • 管理输出字段。

      同时您也可以对已添加的字段执行如下操作:

      • 单击操作列下的agag图标,编辑已有的字段。

      • 单击操作列下的agfag图标,删除已有的字段。

  4. 单击确认,完成FTP输入组件配置。