过滤与映射

过滤与映射组件是一种数据预处理工具,通过用户定义的过滤表达式筛选出符合条件的记录,并允许修改输出字段的名称。这一功能在数据清洗和特征工程阶段非常有用,能够有效地清理数据并准备适合后续分析和建模的数据集。

配置组件

方式一:可视化方式

Designer工作流页面添加过滤与映射组件,并在界面右侧配置相关参数:

参数

描述

选择字段

选择要筛选的列,默认选择全部列。支持修改输出字段名称。

过滤条件

通过where条件实现数据过滤,与SQL类似,例如age>40

说明

支持的操作符:=、!=、>、<、>=、<=、like、rlike。

方式二:PAI命令方式

使用PAI命令配置过滤与映射组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见场景4:在SQL脚本组件中执行PAI命令

PAI -name Filter
    -project algo_public
    -DoutTableName="test_9"
    -DinputPartitions="pt=20150501"
    -DinputTableName="bank_data_partition"
    -Dfilter="age>=40";

参数

是否必选

参数描述

outputTableName

输出表的名称。

inputPartitions

训练输入表分区。输入表对应的输入分区,选中全表则为None。

inputTableName

输入表的名称。

filter

通过where条件实现数据过滤,与SQL类似,例如age>40