Dataphin数据集成的离线管道功能为您提供可视化组件的开发方式。创建离线管道脚本后,您可以通过多样性的组件库拖拽所需组件进行开发。可视化组件开发方式不仅能降低开发难度和提高开发效率,还方便您快速梳理来源与去向数据源。本文为您介绍如何通过组件库开发离线单条管道任务。
前提条件
已完成离线管道脚本的创建。在进行离线管道开发前,您需要创建对应的管道开发脚本。更多信息,请参见通过单条管道创建集成任务。
离线管道组件开发入口
在Dataphin首页,单击顶部菜单栏研发->数据集成。
按照以下操作指引,进入离线管道组件开发页面。
选择项目(Dev-Prod模式需要选择环境)->单击离线集成->选择并单击需要开发的离线管道->单击组件库。
离线组件库开发说明
一般的,一个完整的离线管道由输入(>=1个)、转换(>=0个)、流程(>=0个)及输出(>=1个)组件组成。
在离线单条管道脚本的开发页面,单击页面右上角的组件库,将展示收藏、输入、转换、流程、输出、自定义组件。
收藏组件
当前登录账号在其他组件库中,通过单击进行收藏的组件将在此处展示。您可以将您经常使用的组件进行收藏,并在收藏组件库中进行快捷的选取与使用。
输入组件
原数据的来源,您可根据您的业务数据类型选择对应的组件拖动到左侧的管道画布用于数据输入。各输入组件功能详情,请参见各组件配置详情。
输入组件不支持有上游节点。
输入下游节点可以是转换、输出、流程。
如果输入组件有多个下游节点(输出或转换),则组件连接时需选择输入组件的数据发送方式。
复制:上游节点的数据根据下游节点数量进行等份复制,且每个下游节点的数据都是上游节点的全部数据。
轮流分发:上游节点的数据根据下游节点数量进行轮流分发,且所有下游节点的数据之和等于上游节点的数据。
输出组件
数据来源集成的目标数据。您可根据您的业务需求,选择对应的输出组件并拖动到左侧的管道画布用于数据的输出。各输出组件功能详情,请参见各组件配置详情。
输出组件不支持有下游节点。
流程组件
用于数据集成时的流程控制,Dataphin支持限速、条件分发2种流程组件。各流程组件功能详情,请参见各组件配置详情。
流程组件不支持作为离线管道的第一个或最后一个节点,但支持放置于管道脚本中间的任意位置。
如果流程组件有多个下游节点(转换、输出或流程),则组件连接时需选择输入组件的数据发送方式。
如果流程选择条件分发组件,则组件连接时需选择分发的条件:
如果您选择条件结果为true,当上游节点的结果为true时,数据向下游发送。
如果您选择条件结果为false,当上游节点的结果为false时,数据向下游发送。
转换组件
可用于将输入组件的来源数据进行转换,如对数据字段进行计算、过滤、加密等。各转换组件功能详情,请参见各组件配置详情。
转换组件支持有多个下游组件(转换、输出、流程),所以在组件连接时需要选择输入组件的数据发送方式。
有向连接
选取所需要的组件后,您可以通过有向连接的方式,将上游输入组件指向下游转化、流程、输出组件,形成有向连线。集成任务运行时将根据有向连接依次执行各组件。组件连接时的上下游关系,请参见下图。
画布操作
一个管道画布支持有多个管道脚本同时构建,同时您也可以在管道画布中右键单击执行如下操作。
操作 | 描述 |
复制 | 复制管道画布中已有的组件。 |
粘贴 | 将选复制的管道组件粘贴在管道画布中。 |
删除 | 删除选中的组件。 |
全选 | 选中管道画布中的所有组件。 |
圈选 | 通过鼠标圈定选择多个组件。 |
切换为脚本模式组件
非逻辑表LogicalTable组件、脚本模式组件、本地文件组件的输入与输出组件在组件配置对话框中,支持单击切换为脚本模式组件。切换成脚本模式后,将无法切回。下图以MySQL输入组件为例。
切换前 | 切换后 |
组件配置说明
Dataphin支持的组件及配置说明请参见下表:
输入组件
组件名称 | 组件配置 |
MYSQL | |
Oracle | |
Vertica | |
FTP | |
Hive | |
HBase | |
逻辑表LogicalTable | |
AnalyticDB for PostgreSQL | |
PolarDB | |
本地文件 | |
Teradata | |
OceanBase | |
Hologres | |
TDH Inceptor | |
DataHub | |
DM | |
TiDB | |
GBase 8a | |
SAP Table | |
StarRocks | |
Elasticsearch | |
ArgoDB | |
Salesforce | |
SelectDB | |
Microsoft SQL Server | |
PostgreSQL | |
PolarDB-X(原DRDS) | |
HDFS | |
MaxCompute | |
MongoDB | |
AnalyticDB for MySQL 3.0 | |
Log Service | |
OSS | |
SAP HANA | |
IBM DB2 | |
脚本模式输入 | |
ClickHouse | |
Kafka | |
API | |
KingbaseES | |
GoldenDB | |
Impala | |
OpenGauss | |
Kudu | |
Greenplum | |
Doris | |
Amazon_S3 | |
Lindorm(计算引擎) |
输出组件
组件名称 | 组件配置 |
MYSQL | |
Oracle | |
Vertica | |
FTP | |
Hive | |
HBase | |
AnalyticDB for MySQL2.0 | |
AnalyticDB for MySQL 3.0 | |
PolarDB | |
SAP HANA | |
IBM DB2 | |
脚本模式输出 | |
ClickHouse | |
Kafka | |
KingbaseES | |
GoldenDB | |
Impala | |
StarRocks | |
Greenplum | |
ArgoDB | |
Amazon_S3 | |
Microsoft SQL Server | |
PostgreSQL | |
PolarDB-X(原DRDS) | |
HDFS | |
MaxCompute | |
MongoDB | |
Elasticsearch | |
AnalyticDB for PostgreSQL | |
OSS | |
Teradata | |
OceanBase | |
Hologres | |
TDH Inceptor | |
DataHub | |
DM | |
TiDB | |
GBase 8a | |
OpenGauss | |
API | |
Redis | |
Doris | |
SelectDB | |
Lindorm(计算引擎) |
转换组件
组件名称 | 组件配置 |
字段选择 | |
字段计算 | |
过滤转换 | |
加密转换 | |
解密转换 |
流程组件
组件名称 | 组件配置 |
限速 | |
条件分发 |
自定义组件
如需使用自定义组件,请先新建离线自定义源类型进行自定义。完成后,可以在自定义组件选取使用。