DataWorks的数据开发(DataStudio)模块提供多种节点,包括数据集成节点、引擎计算节点(如ODPS SQL、Hologres SQL、EMR Hive)和通用节点(如虚拟节点、Check节点),以满足您不同的数据处理需求。
数据同步类节点
数据集成节点 | 使用介绍 | 节点编码 | TaskType |
用于离线(批量)数据周期性同步场景,并且支持复杂场景下多种异构数据源间数据同步。离线同步支持的数据源详情,请参见支持的数据源及同步方案。 | 23 | DI2 | |
用于增量数据实时同步场景。实时同步包括实时读取、转换和写入三种基础插件,各插件之间通过内部定义的中间数据格式进行交互。实时同步支持的数据源详情,请参见支持的数据源及同步方案。 | 900 | RI |
除在数据开发(DataStudio)界面直接创建的节点外,数据集成主站还支持多种类型同步方案。例如,全增量数据实时同步,整库离线同步等,详情请参见数据集成侧同步任务能力说明。数据集成主站的任务,通常Code为24
。
引擎计算类节点
您可在具体业务流程,选择在某引擎下新建对应类型的引擎节点,基于该节点进行数据开发,并将引擎代码下发至对应的数据清洗引擎上执行。
DataWorks集成的引擎 | DataWorks对引擎能力的封装 | 节点编码 | TaskType |
MaxCompute | 10 | ODPS_SQL | |
225 | SPARK | ||
221 | PY_ODPS | ||
1221 | PY_ODPS3 | ||
24 | ODPS_SCRIPT | ||
11 | ODPS_MR | ||
1010 | COMPONENT_SQL | ||
E-MapReduce | 227 | EMR_HIVE | |
230 | EMR_MR | ||
229 | EMR_SPARK_SQL | ||
228 | EMR_SPARK | ||
257 | EMR_SHELL | ||
259 | EMR_PRESTO | ||
260 | EMR_IMPALA | ||
264 | SPARK_STREAMING | ||
268 | EMR_KYUUBI | ||
267 | EMR_TRINO | ||
CDH | 270 | CDH_HIVE | |
271 | CDH_SPARK | ||
273 | CDH_MR | ||
278 | CDH_PRESTO | ||
279 | CDH_IMPALA | ||
272 | CDH_SPARK_SQL | ||
AnalyticDB For PostgreSQL | - | - | |
AnalyticDB For MySQL | - | - | |
Hologres | 1093 | HOLOGRES_SQL | |
1094 | HOLOGRES_SYNC_DDL | ||
1095 | HOLOGRES_SYNC_DATA | ||
ClickHouse | 1301 | CLICK_SQL | |
StarRocks | 10004 | - | |
算法(机器学习) | 1002 | ML | |
1117 | PAI_STUDIO | ||
1119 | PAI_DLC | ||
数据库 | 1000039 | - | |
10001 | - | ||
10002 | - | ||
10003 | - | ||
10005 | - | ||
10006 | - | ||
10007 | - | ||
10008 | - | ||
10009 | - | ||
10010 | - | ||
10011 | - | ||
- | - | ||
10013 | - | ||
10014 | - | ||
10015 | - | ||
10016 | - | ||
10017 | - | ||
- | - | ||
其他 | 1000023 | - |
通用类节点
引擎节点可结合通用节点进行复杂逻辑处理。在具体业务流程下,您可在通用节点分组下新建所需节点,结合引擎节点实现复杂逻辑处理。
业务场景 | 节点类型 | 使用说明 | 节点编码 | TaskType |
业务管理 | 虚拟节点属于控制类型节点,它是不产生任何数据的空跑节点,通常作为业务流程统筹节点的根节点,方便您管理节点及业务流程。 | 99 | VIRTUAL_NODE | |
事件触发 | 如果您希望其他调度系统的任务完成后触发DataWorks上的任务运行,可以使用此节点。 说明 DataWorks已不再支持新建跨租户节点,如果您使用了跨租户节点,建议更换为HTTP触发器节点,该节点与跨租户节点能力相同。 | 1114 | SCHEDULER_TRIGGER | |
通过监控OSS对象产生来触发下游节点执行。 | 239 | - | ||
通过监控FTP文件产生来触发下游节点执行。 说明 DataWorks官方建议使用Check节点代替FTP Check节点作为检查节点。 | 1320 | FTP_CHECK | ||
用于检查目标对象是否可用,当Check节点满足检查策略后会返回运行成功状态,若存在下游依赖,会触发下游任务执行。支持检查的目标对象:
| 241 | - | ||
数据质量 | 可通过配置数据质量监控规则,监控相关数据源表的数据质量(例如,是否存在脏数据)。同时,支持您自定义调度策略,周期性执行监控任务进行数据校验。 | 1333 | DATA_QUALITY_MONITOR | |
对比节点可在工作流中实现对不同表数据进行多种方式的对比。 | 1331 | DATA_SYNCHRONIZATION_QUALITY_CHECK | ||
参数赋值与传递 | 用于参数传递,通过自带的output输出将赋值节点最后一条查询或输出结果通过节点上下文功能传递到下游,实现参数跨节点传递。 | 1100 | CONTROLLER_ASSIGNMENT | |
用于上游节点将参数汇总并分发向下传递。 | 1115 | PARAM_HUB | ||
控制类 | 用于遍历赋值节点传递的结果集。 | 1106 | CONTROLLER_TRAVERSE | |
用于循环执行部分节点逻辑,同时您也可结合赋值节点来循环输出赋值节点传递的结果。 | 1103 | CONTROLLER_CYCLE | ||
用于对上游结果进行判断,决定不同结果走不同的分支逻辑,您可结合赋值节点一起使用。 | 1101 | CONTROLLER_BRANCH | ||
用于对上游节点的运行状态进行归并,解决分支节点下游节点的依赖挂载和运行触发问题。 | 1102 | CONTROLLER_JOIN | ||
其他 | Shell节点支持标准Shell语法,但不支持交互性语法。 | 6 | SHELL2 | |
用于周期性调度处理事件函数,并完成与其它类型节点的集成和联合调度。 | 1330 | FUNCTION_COMPUTE | ||
用于将业务流程中的查询数据推送至,钉钉群、飞书群、企业微信群以及Teams内,便于团队成员及时接收和关注最新数据情况。 | 1332 | DATA_PUSH |