本文为您介绍如何配置、复制、删除OSS及如何选择数据的发送方式。

背景信息

OSS输入组件适用于从OSS中读取数据至Dataphin平台,进行数据的整合和再加工的场景。

配置属性

  1. 在离线单条管道脚本的开发页面,单击页面右上角的组件库
  2. 单击输入前的dgd图标。
  3. OSS组件拖到左侧的管道画布中。
  4. 鼠标悬停至OSS组件框内右键单击,选择属性配置
  5. OSS输入配置对话框,配置参数。
    参数 说明
    步骤名称 根据当前组件的使用场景,填写名称。
    数据源 选择数据源。选取Dataphin系统中已配置的数据源,且数据源需同时具备以下两个条件:
    • 数据源类型为OSS数据源
    • 执行属性配置的账号具有该数据源的同步读权限,如果没有权限,则需要申请数据源权限,详情请参见管理数据源权限
    同时您可以单击数据源后的dfag图标,进入规划模块添加数据源,详情请参见新建OSS数据源
    Object前缀 OSS的Object信息,此处可以支持填写多个Object。例如某个OSS的bucket中有yunshi文件夹,文件夹中有ll.txt文件,则Object直接填yunshi/ll.txt。
    文件类型 系统支持的读取TXT和格式的文件。
    列分隔符 读取的字段分隔符。如果您没有填写,则系统默认将字段分隔符填写为英文逗号(,)。
    文件编码 读取文件的编码配置。系统支持的文件编码包括UTF-8GBK
    null值 将要表示为空的字段填入文本框,如果源端存在则将对应的部分转换为空。
    压缩格式 文本压缩类型,默认不填写(即不压缩)。系统支持的压缩格式包括:
    • zip
    • gzip
    • bzip2
    • lzo
    • lzo_deflate
    首行内容类型 选择文本的首行内容类型。首行内容类型包括数据内容字段名称
    输出字段 为您展示输出字段。 您可以手动添加输出字段:
    • 单击批量添加 ,以JSON格式批量配置,例如。
      
      [{  "name":"cf1:a",  "type":"String" },
      {  "name":"cf1:b",  "type":"String" }]
    • 单击新建输出字段,根据页面提示填写来源序号字段及选择类型
    同时您也可以对已添加的字段执行如下操作:
    • 单击操作列下的agag图标,编辑已有的字段。
    • 单击操作列下的agfag图标,删除已有的字段。
  6. 单击确认,完成OSS输入组件的属性配置。

复制OSS

  1. 鼠标悬停至OSS组件框内右键单击,单击复制
  2. 在管道画布中右键单击后,选择粘贴,完成OSS输入组件的复制。

删除OSS

  1. 鼠标悬停至OSS组件框内右键单击,单击删除
  2. 在确认弹框中单击确定,完成OSS输入组件的删除。

选择数据的发送方式

当输入组件在连接多个下游组件时,需要选择输入组件的数据发送到下游节点的方式。

  1. 鼠标悬停至OSS组件框内右键单击,单击数据发送方式
  2. 选择数据发送的方式。
    数据发送方式包括:
    • 复制:上游节点的数据根据下游节点数量进行等份复制,且每个下游节点的数据都是上游节点的全部数据。
    • 轮流分发:上游节点的数据根据下游节点数量进行轮流分发,且所有下游节点的数据之和等于上游节点的数据。