DataWorks数据集成实时ETL支持数据过滤组件使用,可以在来源与去向组件间新增数据过滤组件按配置的过滤规则,按字段对数据进行过滤。
前提条件
- 已完成数据集成的基本配置与网络资源配置。 
- 仅支持如下数据源类型的数据来源和数据去向,配置单表实时同步任务时,使用数据处理组件。 - 数据来源:Hologres、Kafka、Loghub、Oracle、DataHub 
- 数据去向:ApsaraDB for OceanBase、DLF 2.0、Doris、Hologres、Kafka、MaxCompute、OSS-HDFS、Tablestore、StarRocks 
 
步骤一:配置数据集成任务
- 新建数据源,详情请参见:创建并管理数据源。 
- 新建数据集成任务,详情请参见:数据集成侧同步任务。 说明- 当数据集成侧同步任务的同步类型为单表实时,可在数据来源组件与数据去向组件之间新增数据处理组件。详情可参见支持的数据源及同步方案。 
步骤二:添加数据过滤组件
- 在实时ETL任务编辑页DAG画布中,单击来源与去向组件之间的  按钮,新增选择数据过滤组件。 按钮,新增选择数据过滤组件。 
- 配置过滤规则 - 字段名:选择前一个步骤的输入字段,取值作为条件表达式左值。 
- 判断:条件运算类型,详情如下表。 
- 值:条件表达式右值,支持选择前一个步骤的输入字段或者输入常量,选择输入常量时,不支持正则,支持Java转义字符,例如 - \t(制表符)、- \n(换行符)、- \u0001(unicode字符)
 
- 添加规则:可以添加多个过滤规则。  
- 输出字段:来源数据过滤后的输出字段名,与输入字段名和格式一致。 
后续操作
完成来源信息、数据过滤以及去向信息的配置后,可单击右上角的模拟运行,对数据集成任务进行模拟运行,以便查看输出数据结果,是否符合您的需求。
该文章对您有帮助吗?