配置Greenplum输出组件,可以将外部数据库中读取的数据写入到Greenplum,或从大数据平台对接的存储系统中将数据复制推送至Greenplum,进行数据整合和再加工。本文为您介绍如何配置Greenplum输出组件。
前提条件
已创建Greenplum数据源。具体操作,请参见创建GreenPlum数据源。
进行Greenplum输入组件属性配置的账号,需具备该数据源的同步读权限。如果没有权限,则需要申请数据源权限。具体操作,请参见申请数据源权限。
操作步骤
请参见离线管道组件开发入口,进入离线管道脚本的开发页面。
按照下图操作指引,进入Greenplum输出配置对话框。
在Greenplum输出配置对话框,配置参数。
参数
说明
步骤名称
命名规则如下:
仅支持中文、字母、数字及下划线(_)。
最多输入 64 个字符。
数据源
选择Dataphin已配置的数据源。同时您可以单击数据源后的新建,进入规划模块新建数据源。具体操作,请参见创建GreenPlum数据源。
进行属性配置的账号需具备该数据源的同步写权限,如果没有权限,则需要申请数据源权限,详情请参见申请数据源权限。
Schema
可选取数据库中的schema,必填。如在数据源链接中已包含schema信息,则默认为配置的schema,也可选择其他有权限的schema。
表
选择输出数据的目标表。
如果Greenplum数据源中没有数据同步的目标表,则您可以通过一键生成目标表的功能,简单快速地生成目标表。操作步骤如下:
单击一键生成目标表。Dataphin会自动为您匹配创建目标表的代码,包括目标表名称(默认为来源表名)、字段类型(基于Dataphin字段做了初步的转换)等信息。如下图所示:
您可以根据业务情况修改创建目标表的SQL脚本后,单击新建。
目标表新建成功后,Dataphin自动将新建的目标表作为输出数据的目标表。一键生成目标表用于为开发环境、生产环境创建数据同步的目标表。Dataphin默认为您选中生产环境建表,如果生产环境已经有同名且结构相同的数据表,则您无需勾选生产环境建表。
解析方案
非必填项,指数据输出前和输出完成的一些特殊处理方式。填写导入执行前和执行后的SQL脚本。如为了满足服务的持续可用性,当前步骤写数据执行前先创建目标表
Target_A
,执行写入到目标表Target_A
,当前步骤写数据执行完成后,对数据库中持续提供服务的表Service_B
重命名成Temp_C
,然后将表Target_A
重命名为Service_B
,最后删除Temp_C
。加载策略
可选择追加数据和copy策略:
追加数据:当主键/约束冲突时,会提示脏数据错误;
copy策略:根据选择的冲突解决策略进行动作,仅支持表,不支持视图。
冲突解决策略
加载策略选择copy时,需选择冲突解决策略,GreenPlum仅支持冲突时报错。
字段映射
输入字段:展示上游的输入字段。
输出字段:展示输出字段。单击字段管理:
单击图标,将已选的输入字段移入未选的输入字段。
单击图标,将未选的输入字段移入已选的输入字段。
同时您也可以对已添加的字段执行如下操作:
单击操作列下的图标,编辑已有的字段。
单击操作列下的图标,删除已有的字段。
映射关系:根据上游的输入和目标表的字段,可以手动选择字段映射。快速映射包括同行映射和同名映射。
单击确认,完成Greenplum输出组件配置。