本文为您介绍缺失值处理组件。
功能说明
缺失值处理组件支持对缺失的数据进行填充或剔除,数据集出现缺失值可能会导致后续的建模异常,可以在数据处理阶段对缺失值进行填充或剔除。支持的填充方法有:前值,后值,均值,和指定值。
计算逻辑原理
前值:将缺失值按照前面一个有效值进行填充。
后值:将缺失值按照后面一个有效值进行填充。
均值:将缺失值按照当列均值进行填充。
指定值:将缺失值按照输入的指定值进行填充。
剔除:剔除有缺失值的数据行。
参数说明
IN端口-输入参数
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
保留变量 | 配置不需要做缺失值处理的变量,原样输出。 | 否 | 不限 |
|
时间变量 | 配置需要做缺失值处理的时间变量。 说明 如果配置了时间变量,那么时间变量缺失的行数据会默认剔除。并且时间变量的数据类型必须是日期或时间字符串。算法支持的输入时间格式为:
年月日和时分秒之间也可用大写T连接,例如:2023-01-11T12:01:00。 建议输入时间格式:yyyy-mm-dd hh:mm:ss。 输出时间格式为:yyyy-mm-dd hh:mm:ss。 | 否 | 时间或字符 |
|
缺失变量 | 配置需要做缺失值处理的数据变量。 | 是 | 整数或浮点数 说明 若存在非数值数据,则会置为NaN |
|
OUT端口-输出参数
参数名 | 参数描述 | 是否必填 | 输出数据类型 |
输出 | 输出包含保留变量、时间变量和缺失变量。 | 否 | 保留变量:与输入数据类型一致 时间变量:与输入数据类型一致 缺失变量:浮点数 |
其他参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
处理方法 | 选择缺失值处理的方法。 | 是 | 填充 |
|
填充方法 | 选择填充处理的方法。 | 当处理方法为“填充”时,才需要配置。 | 前值 |
|
常数 | 指定需要填充的具体数值。 | 当填充方法为“指定值”时,才需要配置。 | 0 | [-99999999,99999999] |