缺失值填充
更新时间:
一、组件说明
在联邦学习任务中,缺失值指的是数据集中某些特征(属性)的取值缺失。由于许多机器学习算法需要输入完整的数据集进行训练,所以在数据集中存在缺失值会对模型的训练和性能产生影响。因此,需要对缺失值进行填充,以便于联邦学习算法的处理。
组件截图
二、参数说明
对于字符型特征和数值型特征,分别对应不同的填充方法。可以只选择其中一种,而另外一种选择不填。
字符类型填充参数
参数名称 | 参数说明 |
字符类型-选择填充字段 | 选择需要填充值的字段列。 |
字符类型-原值 | 选择需要被替换的原值类型,选项有:NULL,空字符,NULL和空字符,自定义。 |
字符类型-替换自定义值 | 选择原值将要被替换的值,自定义。 |
数值类型填充参数
参数名称 | 参数说明 |
数值类型-选择填充字段 | 选择需要填充值的字段列。 |
数值类型-原值 | 选择需要被替换的原值类型,选项有:NULL,自定义。 |
数值类型-替换为 | 选择原值将要被替换的值,可以选择替换为平均数、中位数、众数、自定义。 |
三、有配置文件可读
在上游有配置文件可以选择的时候,可以使用配置文件进行缺失值填充。填充字段和配置文件相同,无需选择。填充的方式和配置文件相同。举例:在训练过程中,希望用训练数据的中位数来填充至预测数据中,此时可以将训练时使用的配置文件,通过【读配置文件】接入到【缺失值填充】的输入桩中,以此来保证训练数据和预测数据的一致性,如下图所示:
文档内容是否对您有帮助?