DataWorks数据集成实时ETL支持字段编辑与赋值组件使用,可以在来源与去向组件间新增字段编辑与赋值组件按配置的过滤规则,进行新增字段的编辑和赋值。
前提条件
- 已完成数据集成的基本配置与网络资源配置。 
- 仅支持如下数据源类型的数据来源和数据去向,配置单表实时同步任务时,使用数据处理组件。 - 数据来源:Hologres、Kafka、Loghub、Oracle、DataHub 
- 数据去向:ApsaraDB for OceanBase、DLF 2.0、Doris、Hologres、Kafka、MaxCompute、OSS-HDFS、Tablestore、StarRocks 
 
步骤一:配置数据集成任务
- 新建数据源,详情请参见:创建并管理数据源。 
- 新建数据集成任务,详情请参见:数据集成侧同步任务。 说明- 当数据集成侧同步任务的同步类型为单表实时,可在数据来源组件与数据去向组件之间新增数据处理组件。详情可参见支持的数据源及同步方案。 
步骤二:添加字段编辑与赋值组件
- 在实时ETL任务编辑页DAG画布中,单击来源与去向组件之间的  按钮,添加字段编辑与赋值组件。 按钮,添加字段编辑与赋值组件。 
- 配置字段编辑与赋值组件。  - 字段详情 - 字段名称:上游输出的字段名称。 
- 类型:上游输出的数据类型。 
- 取值:上游已有字段值或新增字段的取值方式,包括赋值、变量和函数三种可选类型。 
- 操作:对于上游输出字段,可以选择是否将该字段向下游输出。 
 
- 新增字段:单击字段编辑与赋值页面左下角的新增字段添加新的字段。 - 赋值:将手动输入的文本内容转换为指定的数据类型后赋值新字段。 
- 变量:在同步运行时将内置变量取值赋值新字段,支持的内置变量如下表所示。 说明- 不同源端和目标端由于系统特性原因可能不支持以下所有变量。 
- 函数:在同步运行时进行函数计算,将计算结果赋值给新字段,如果函数处理过程发生异常,对应记录将被视为脏数据处理,计入同步任务脏数据统计并根据脏数据容忍配置决定任务是否异常退出。 
 
 
后续操作
完成来源信息、字段编辑与赋值以及去向信息的配置后,可单击右上角的模拟运行,对数据集成任务进行模拟运行,以便查看输出数据结果,是否符合您的需求。