缺失值填充

更新时间:

一、组件说明

在联邦学习任务中,缺失值指的是数据集中某些特征(属性)的取值缺失。由于许多机器学习算法需要输入完整的数据集进行训练,所以在数据集中存在缺失值会对模型的训练和性能产生影响。因此,需要对缺失值进行填充,以便于联邦学习算法的处理。

组件截图

image.png

二、参数说明

对于字符型特征和数值型特征,分别对应不同的填充方法。可以只选择其中一种,而另外一种选择不填。

字符类型填充参数

参数名称

参数说明

字符类型-选择填充字段

选择需要填充值的字段列。

字符类型-原值

选择需要被替换的原值类型,选项有:NULL,空字符,NULL和空字符,自定义。

字符类型-替换自定义值

选择原值将要被替换的值,自定义。

image.png

数值类型填充参数

参数名称

参数说明

数值类型-选择填充字段

选择需要填充值的字段列。

数值类型-原值

选择需要被替换的原值类型,选项有:NULL,自定义。

数值类型-替换为

选择原值将要被替换的值,可以选择替换为平均数、中位数、众数、自定义。

image.png

三、有配置文件可读

在上游有配置文件可以选择的时候,可以使用配置文件进行缺失值填充。填充字段和配置文件相同,无需选择。填充的方式和配置文件相同。举例:在训练过程中,希望用训练数据的中位数来填充至预测数据中,此时可以将训练时使用的配置文件,通过【读配置文件】接入到【缺失值填充】的输入桩中,以此来保证训练数据和预测数据的一致性,如下图所示:

image.png