文档

缺失值处理

更新时间:

本文为您介绍缺失值处理组件。

功能说明

缺失值处理组件支持对缺失的数据进行填充或剔除,数据集出现缺失值可能会导致后续的建模异常,可以在数据处理阶段对缺失值进行填充或剔除。支持的填充方法有:前值,后值,均值,和指定值。

计算逻辑原理

  • 前值:将缺失值按照前面一个有效值进行填充。

  • 后值:将缺失值按照后面一个有效值进行填充。

  • 均值:将缺失值按照当列均值进行填充。

  • 指定值:将缺失值按照输入的指定值进行填充。

  • 剔除:剔除有缺失值的数据行。

参数说明

IN端口-输入参数

参数名

参数描述

是否必填

输入数据类型

数据源类型

保留变量

配置不需要做缺失值处理的变量,原样输出。

不限

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

时间变量

配置需要做缺失值处理的时间变量。

说明

如果配置了时间变量,那么时间变量缺失的行数据会默认剔除。并且时间变量的数据类型必须是日期或时间字符串。算法支持的输入时间格式为:

  • yyyy-mm-dd hh:mm:ss 或 mm-dd-yyyy hh:mm:ss

  • yyyy/mm/dd hh:mm:ss 或 mm/dd/yyyy hh:mm:ss

  • hh:mm:ss yyyy-mm-dd 或 hh:mm:ss mm-dd-yyyy

  • hh:mm:ss yyyy/mm/dd 或 hh:mm:ss mm/dd/yyyy

年月日和时分秒之间也可用大写T连接,例如:2023-01-11T12:01:00。

建议输入时间格式:yyyy-mm-dd hh:mm:ss。

输出时间格式为:yyyy-mm-dd hh:mm:ss。

时间或字符

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

缺失变量

配置需要做缺失值处理的数据变量。

整数或浮点数

说明

若存在非数值数据,则会置为NaN

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

OUT端口-输出参数

参数名

参数描述

是否必填

输出数据类型

输出

输出包含保留变量、时间变量和缺失变量。

保留变量:与输入数据类型一致

时间变量:与输入数据类型一致

缺失变量:浮点数

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

处理方法

选择缺失值处理的方法。

填充

  • 填充

  • 剔除

填充方法

选择填充处理的方法。

当处理方法为“填充”时,才需要配置。

前值

  • 前值

  • 后值

  • 均值

  • 指定值

常数

指定需要填充的具体数值。

当填充方法为“指定值”时,才需要配置。

0

[-99999999,99999999]

  • 本页导读 (0)
文档反馈