配置Greenplum输出组件

配置Greenplum输出组件,可以将外部数据库中读取的数据写入到Greenplum,或从大数据平台对接的存储系统中将数据复制推送至Greenplum,进行数据整合和再加工。本文为您介绍如何配置Greenplum输出组件。

前提条件

  • 已创建Greenplum数据源。具体操作,请参见创建GreenPlum数据源

  • 进行Greenplum输入组件属性配置的账号,需具备该数据源的同步读权限。如果没有权限,则需要申请数据源权限。具体操作,请参见申请数据源权限

操作步骤

  1. 请参见离线管道组件开发入口,进入离线管道脚本的开发页面。

  2. 按照下图操作指引,进入Greenplum输出配置对话框。

    image.png

  3. Greenplum输出配置对话框,配置参数。

    参数

    说明

    步骤名称

    命名规则如下:

    • 仅支持中文、字母、数字及下划线(_)。

    • 最多输入 64 个字符。

    数据源

    选择Dataphin已配置的数据源。同时您可以单击数据源后的新建,进入规划模块新建数据源。具体操作,请参见创建GreenPlum数据源

    进行属性配置的账号需具备该数据源的同步写权限,如果没有权限,则需要申请数据源权限,详情请参见申请数据源权限

    Schema

    可选取数据库中的schema,必填。如在数据源链接中已包含schema信息,则默认为配置的schema,也可选择其他有权限的schema。

    选择输出数据的目标表。

    如果Greenplum数据源中没有数据同步的目标表,则您可以通过一键生成目标表的功能,简单快速地生成目标表。操作步骤如下:

    1. 单击一键生成目标表。Dataphin会自动为您匹配创建目标表的代码,包括目标表名称(默认为来源表名)、字段类型(基于Dataphin字段做了初步的转换)等信息。如下图所示:

      image.png

    2. 您可以根据业务情况修改创建目标表的SQL脚本后,单击新建

      目标表新建成功后,Dataphin自动将新建的目标表作为输出数据的目标表。一键生成目标表用于为开发环境、生产环境创建数据同步的目标表。Dataphin默认为您选中生产环境建表,如果生产环境已经有同名且结构相同的数据表,则您无需勾选生产环境建表。

    解析方案

    非必填项,指数据输出前和输出完成的一些特殊处理方式。填写导入执行前和执行后的SQL脚本。如为了满足服务的持续可用性,当前步骤写数据执行前先创建目标表Target_A,执行写入到目标表Target_A,当前步骤写数据执行完成后,对数据库中持续提供服务的表Service_B重命名成Temp_C,然后将表Target_A重命名为Service_B,最后删除Temp_C

    加载策略

    可选择追加数据copy策略:

    • 追加数据:当主键/约束冲突时,会提示脏数据错误;

    • copy策略:根据选择的冲突解决策略进行动作,仅支持表,不支持视图。

    冲突解决策略

    加载策略选择copy时,需选择冲突解决策略,GreenPlum仅支持冲突时报错

    字段映射

    • 输入字段:展示上游的输入字段。

    • 输出字段:展示输出字段。单击字段管理

      • 单击gaagag图标,将已选的输入字段移入未选的输入字段

      • 单击agfag图标,将未选的输入字段移入已选的输入字段

      同时您也可以对已添加的字段执行如下操作:

      • 单击操作列下的agag图标,编辑已有的字段。

      • 单击操作列下的agfag图标,删除已有的字段。

    • 映射关系:根据上游的输入和目标表的字段,可以手动选择字段映射。快速映射包括同行映射同名映射

  4. 单击确认,完成Greenplum输出组件配置