配置OSS输入组件

OSS输入组件用于读取OSS数据源的数据。同步OSS数据源的数据至其他数据源的场景中,您需要先配置OSS输入组件读取的数据源,再配置数据同步的目标数据源。本文为您介绍如何配置OSS输入组件。

前提条件

  • 已创建OSS数据源。具体操作,请参见创建OSS数据源

  • 进行OSS输入组件属性配置的账号,需具备该数据源的同步读权限。如果没有权限,则需要申请数据源权限。具体操作,请参见申请数据源权限

操作步骤

  1. 在Dataphin首页顶部菜单栏,选择研发 > 数据集成

  2. 在集成页面顶部菜单栏选择项目(Dev-Prod模式需要选择环境)。

  3. 在左侧导航栏中单击离线集成,在离线集成列表中单击需要开发的离线管道,打开该离线管道的配置页面。

  4. 单击页面右上角的组件库,打开组件库面板。

  5. 组件库面板左侧导航栏中需选择输入,在右侧的输入组件列表中找到OSS组件,并拖动该组件至画布。

  6. 单击OSS输入组件卡片中的image图标,打开OSS输入配置对话框。

  7. OSS输入配置对话框中,配置以下参数。

    参数

    描述

    步骤名称

    即OSS输入组件的名称。Dataphin自动生成步骤名称,您也可以根据业务场景修改。命名规则如下:

    • 只能包含中文、字母、下划线(_)、数字。

    • 不能超过64个字符。

    数据源

    选择数据源。选取Dataphin系统中已配置的数据源,且数据源需同时具备以下两个条件:

    • 数据源类型为OSS数据源

    • 执行属性配置的账号具有该数据源的同步读权限,如果没有权限,则需要申请数据源权限,详情请参见申请数据源权限

    同时您可以单击数据源后的新建,进入规划模块添加数据源,详情请参见创建OSS数据源

    Object前缀

    OSS的Object信息,此处可以支持填写多个Object。例如某个OSS的bucket中有data文件夹,文件夹中包含phin.txt文件,若同步具体的文件,则Object前缀可填写为data/phin.txt;若同步文件夹下的所有文件,则需填写通配符,如data/*

    文件类型

    系统支持读取TextCSV、xls、xlsx格式的文件。格式不同,所需要配置的信息不同。

    输出字段

    为您展示输出字段。 您可以手动添加输出字段:

    • 单击批量添加

      • 以JSON格式批量配置,例如。

        // 示例:
        [{"index": 0,"name": "user_id","type": "String"},
         {"index": 1,"name": "user_name","type": "String"}]
        说明

        index表示指定对象的列编号,name表示引入后的字段名称,type表示引入后的字段类型。例如:"index":3,"name":"user_id","type":"String" 表示把文件中的第4列引入,字段名为user_id,字段类型为 String。

      • 以TEXT格式批量配置,例如。

        1,user_name,String
        • 行分隔符用于分隔每个字段的信息,默认为换行符(\n),可支持换行符(\n)、分号(;)、点(.)。

        • 列分隔符用于分隔字段名与字段类型,默认英文逗号(,)。

    • 单击新建输出字段,根据页面提示填写来源序号字段及选择类型。Text和CSV文件类型的来源序号必须填写该字段所在列的数字序号,序号从0开始。

    同时您也可以对已添加的字段执行如下操作:

    • 单击拖动字段旁的image图标,可调换字段所处位置。

    • 单击操作列下的agag图标,编辑已有的字段。

    • 单击操作列下的agfag图标,删除已有的字段

  8. Text、CSV格式

    参数

    描述

    列分隔符

    文件列分隔符。如果您没有填写,则系统默认填写为英文逗号(,)。

    行分隔符

    文件行分隔符。如果您没有填写,则系统默认填写为换行符号(\n)。

    文件编码

    读取文件的编码配置。系统支持的文件编码包括UTF-8GBK

    null值

    将要表示为空的字段填入文本框,如果源端存在则将对应的部分转换为空。

    压缩格式

    文本压缩类型,默认不填写(即不压缩)。系统支持的压缩格式包括:

    • zip

    • gzip

    • bzip2

    • lzo

    • lzo_deflate

    首行内容类型

    选择文本的首行内容类型。首行内容类型包括数据内容字段名称

    xls、xlsx格式

    参数

    描述

    sheet选择

    可按名称或索引选择要读取的sheet,如读取多个sheet需保持数据格式一致。

    • 按名称:需要填写要读取的sheet名称

    • 按索引:需要填写要读取的sheet索引从0开始

    数据内容起始行

    填写数据内容起始行。默认为1,从第一行开始为数据内容。若需忽略前N行,则将数据内容起始行设置为N+1

    数据内容结束行

    填写数据内容结束行。如不指定,则默认读到有数据的最后一行。

    导出sheet名

    是否导出数据的来源sheet名称,导出内容为{文件名}-{sheet名}

    文件编码

    支持UTF-8GBK编码。

    压缩格式

    支持zipgzipbzip2lzolzo_deflate压缩格式。

    空值转换

    可指定将任意字符串转换为Null值。

  9. 单击确认,完成OSS输入组件的属性配置。

后续步骤

完成输入组件的配置后,即可配置下游组件,以实现数据同步。具体操作,请参见集成组件库开发说明