配置Amazon S3输入组件_智能数据建设与治理 Dataphin(Dataphin)-阿里云帮助中心

备案控制台

输入文档关键字查找

配置Amazon S3输入组件后，可以读取Amazon S3数据源中的数据至Dataphin，进行数据集成与数据开发。本文为您介绍如何配置Amazon S3输入组件。

前提条件

已创建Amazon S3数据源。具体操作，请参见新建Amazon S3数据源。
进行Amazon S3输入组件属性配置的账号，需具备该数据源的同步读权限。如果没有权限，则需要申请数据源权限。具体操作，请参见申请数据源权限。

操作步骤

参见离线管道组件开发入口，进入离线单条管道脚本开发页面。
按照以下操作指引，进入Amazon S3输入配置对话框。
单击组件库->单击输入->拖动Amazon S3输入组件至画布->单击配置图标。

在Amazon S3输入配置对话框中，配置参数。

参数	说明
步骤名称	Amazon S3输入组件的名称。Dataphin自动生成步骤名称，您也可以根据业务场景修改。命名规则如下：只能包含汉字、字母、下划线（_）、数字。不能超过64个字符。
数据源	下拉列表中展示Dataphin中所有Amazon S3类型的数据源。对于您没有同步读权限的数据源，您可以单击数据源后的申请，申请对应数据源的读取权限。申请数据源读取权限的具体操作，请参见申请数据源权限。如果您还没有Amazon S3类型的数据源，单击新建，创建数据源。具体操作，请参见新建Amazon S3数据源。
Object前缀	对象是Amazon S3存储数据的基本单元。也被称为Amazon S3的文件。对象由元信息（Object Meta）、用户数据（Data）和文件名（Key）组成。对象由存储空间内部唯一的Key来标识。输入组件支持多Object配置，可以单击+添加Object前缀，进行添加。若数据源中配置了目录，则此处会自动展示数据源中配置的目录，可进行修改，但需确认是否有其他目录的权限，否则任务会失败。
文件类型	支持Text、CSV、xls和xlsx。不同文件类型，所需配置参数不同。 Text、CSV文件类型所需配置参数，请参见Text和CSV文件类型。 xls和xlsx文件类型所需配置参数，请参见xls和xlsx文件类型。
文件编码	支持UTF-8和GBK编码。
空值转换	默认为空，可指定任意字符串转换为NULL值。
压缩格式	支持zip、gzip、bzip2、lzo、lzo_deflate压缩格式。
输出字段	为您展示输出字段。您可以手动添加输出字段：单击批量添加。以JSON格式批量配置，例如，`"index":3,"name":"user_id","type":"String"` 表示把文件中的第4列引入，字段名为user_id，字段类型为String 以TEXT格式批量配置。行分隔符用于分隔每个字段的信息，默认为换行符（\n），可支持换行符（\n）、分号（;）、点（.）。列分隔符用于分隔字段名与字段类型，默认英文逗号（,）。单击新建输出字段，根据页面提示填写来源序号、字段及选择类型。Text和CSV文件类型的来源序号必须填写该字段所在列的数字序号，序号从0开始。同时您也可以对已添加的字段执行如下操作：单击拖动字段旁的图标，可调换字段所处位置。单击操作列下的图标，编辑已有的字段。单击操作列下的图标，删除已有的字段。

Text和CSV文件类型

参数	描述
列分隔符	根据实际存储的情况填写文件内列之间的分隔符，如果不填写默认为英文逗号（,）。
行分隔符	根据实际存储的情况填写文件内行之间的分隔符，如果不填写默认为换行符（\n）。
首行内容类型	若首行为字段名称，可选择字段名称，否则请选择数据内容。

xls和xlsx文件类型

参数	描述
sheet选择	可按名称或索引选择要读取的sheet，如读取多个sheet需保持数据格式一致。
sheet名称	读取多张sheet以英文逗号（,）分隔，也可输入``读取所有sheet。重要 ``和英文逗号（,）不可混用。
数据内容起始行	默认为1，从第一行开始为数据内容。若需忽略前N行，请则将数据内容起始行设置为N+1。
数据内容结束行	非必填，如不指定，则默认读到有数据的最后一行。重要内容结束行需（>=）大于等于起始行，否则将导致任务报错。
导出sheet名	默认不导出，如选择导出，则会在输出字段中加入一个来源sheet字段。

单击确认，完成Amazon S3输入组件的属性配置。

上一篇：配置Salesforce输入组件下一篇：配置SelectDB输入组件

该文章对您有帮助吗？

本页导读（0）

前提条件

操作步骤

Text和CSV文件类型

xls和xlsx文件类型