非结构化数据归集,旨在将分散在不同地方的非结构化文件统一存储到指定位置,如OSS、数据湖等,它是非结构化数据处理的第一步,方便后续对非结构化数据进行处理。本文为您介绍如何创建数据归集任务。
操作步骤
步骤一:创建数据归集任务
在Dataphin首页的顶部菜单栏中,选择研发 > 数据集成。
在集成页面顶部菜单栏选择项目(Dev-Prod模式需要选择环境)。
在左侧导航栏选择非结构化数据 > 数据归集,在右侧数据归集列表中,单击
图标,打开新建数据归集任务对话框。在新建数据归集任务对话框中,配置以下参数。
参数
描述
任务名称
支持最长64个字符,不支持特殊字符:竖线(|)、正斜线(/)、反斜线(\)、半角冒号(:)、半角问号(?)、尖括号(<>)、星号(*)、半角单引号('')。
调度类型
选择管道的调度类型。调度类型包括:
周期性节点:指需定期执行的任务。
手动节点:指没有依赖关系,需手动触发的任务。
描述
填写数据归集的简单描述,1000个字符以内。
选择目录
选择任务所存放的目录。
若未创建目录,您可以新建文件夹,操作方法如下:
在页面左侧计算任务列表上方单击
图标,打开新建文件夹对话框。在新建文件夹对话框中输入文件夹名称并根据需要选择目录位置。
单击确定。
单击确定。
步骤二:数据归集文件输入输出配置
输入组件
参数
描述
步骤名称
默认为file_input,支持修改,可使用中文、英文、下划线(_)和数字。
数据源类型
可选择OSS、Amazon S3、FTP或HDFS。
数据源
仅可选择有同步读权限的数据源,若无适用数据源,可单击新建数据源来创建对应数据源,详情请参见创建OSS数据源、创建Amazon S3数据源、创建FTP数据源、创建HDFS数据源。
单击
图标,可复制数据源名称。Object
支持通配符,可填写多个Object。例如:
category/*代表读取category/开头的所有的对象。说明仅数据源类型为OSS或Amazon S3时,支持配置此项。
文件路径
可输入多个文件路径,多个路径间使用分号(;)分隔。输入路径时支持使用通配符。例如:
/bazhen/*代表读取bazhen目录下所有的文件。说明仅数据源类型为FTP或HDFS时,支持配置此项。
输出组件
参数
描述
步骤名称
默认为file_output,支持修改,可使用中文、英文、下划线(_)和数字。
数据源类型
可选择OSS、Amazon S3、FTP或HDFS。
数据源
仅可选择有同步读权限的数据源,若无适用数据源,可单击新建数据源来创建对应数据源,详情请参见创建OSS数据源、创建Amazon S3数据源、创建FTP数据源、创建HDFS数据源。
单击
图标,可复制数据源名称。Object前缀
仅需填写目录路径,目标文件名称默认与来源文件名一致。
说明仅数据源类型为OSS或Amazon S3时,支持配置此项。
文件路径
仅需填写单个文件路径,目标文件名称默认与来源文件名一致。
说明仅数据源类型为FTP或HDFS时,支持配置此项。
加载策略
OSS、Amazon S3、FTP数据源支持覆盖数据、追加数据和文件名冲突报错;HDFS数据源支持覆盖数据和追加数据。
覆盖数据:写入前清理目录下文件名冲突的文件,再新增数据文件
追加数据:直接向目标目录新增数据文件,并使用随机UUID的后缀名保证文件名不冲突。
文件名冲突报错:若目录下存在文件名冲突的文件,运行时则直接报错。
步骤三:配置数据归集任务属性
单击画布菜单栏的调度配置按钮,打开属性面板的调度配置页签。
在调度配置面板中,配置数据归集任务的基本信息、运行参数、调度配置、调度依赖、运行配置、资源配置。各配置说明如下:
基本信息:数据归集任务的基本信息,同离线集成任务的基本信息。您可配置开发负责人、运维负责人、标签及描述。配置说明,请参见配置离线集成管道基本信息。
运行参数:若您的任务中调用了参数变量,您可在属性中对参数进行赋值,从而支持节点调度时,参数变量可以自动被替换为相应的变量值。配置同离线集成任务的运行参数,详情请参见配置离线管道运行参数。
调度配置:对于周期性节点,调度配置用于定义数据归集任务在生产环境的调度方式,同离线集成任务的调度配置。详情请参见离线集成管道调度配置。
调度依赖:对于周期性节点,调度依赖用于定义数据归集任务在调度任务中的依赖节点,同离线集成任务的调度依赖。详情请参见离线集成管道调度依赖配置。
运行配置:您可根据业务场景为该数据归集任务配置任务级的运行超时时间和任务运行失败时的重跑策略,杜绝因计算任务长时间资源占用造成资源浪费的同时提高计算任务运行的可靠性。配置同离线集成任务的运行配置,详情请参见离线集成管道运行配置。
资源配置:您可为当前数据归集任务配置所属资源组,该数据归集任务将使用该资源组资源进行任务调度。配置同离线集成任务的资源配置,详情请参见配置离线集成管道任务资源。
单击属性面板的通道配置页签,为当前数据归集任务定义运行时的容错、并发数、JVM资源及数据库配置。配置同离线集成任务的通道配置(不支持配置流量监控),详情请参见离线集成管道通道配置。
步骤四:保存并提交数据归集任务
单击画布上方的保存图标,保存数据归集任务。
单击画布上方的提交图标,在提交备注对话框,填写备注信息后,单击确定并提交。
提交时,Dataphin将进行任务的血缘解析及提交检查。更多信息,请参见集成任务提交说明。
后续步骤
创建数据归集任务后,可前往数据归集任务列表中统一查看并管理数据归集任务。任务列表中除个别筛选项外(不支持来源表/topic/索引、目标表/topic/索引筛选项;来源数据源/项目/数据板块筛选项改为来源数据源、目标数据源/项目/数据板块筛选项改为目标数据源),其余均与离线集成任务列表相同,详情请参见查看离线集成任务列表。
数据归集任务运行后,可前往数据归集运行记录中统一查看任务运行相关信息。运行列表信息同离线集成任务,详情请参见查看及管理运行记录列表。
如果您的开发模式是Dev-Prod模式,则需要发布任务。更多信息,请参见管理发布任务。
如果您的开发模式是Basic模式,则提交成功后的任务,即可参与生产环境的调度。您可前往运维中心查看您发布的任务。更多信息,请参见运维中心。