缺失值处理

本文为您介绍数据处理组件的缺失值处理组件。

功能说明

缺失值处理组件支持对缺失的数据进行填充或剔除,数据集出现缺失值可能会导致后续的建模异常,可以在数据处理阶段对缺失值进行填充或剔除。支持的填充方法有:前值,后值,均值,和指定值。

计算逻辑原理

  • 前值:将缺失值按照前面一个有效值进行填充

  • 后值:将缺失值按照后面一个有效值进行填充

  • 均值:将缺失值按照当列均值进行填充

  • 指定值:将缺失值按照输入的指定值进行填充

  • 剔除:剔除有缺失值的数据行

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

保留变量

配置不需要做缺失值处理的变量,原样输出。

不限

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

时间变量

配置需要做缺失值处理的时间变量。

说明:如果配置了时间变量,那么时间变量缺失的行数据会默认剔除。并且时间变量的数据类型必须是日期或时间字符串,建议格式:yyyy-mm-dd hh:mm:ss。

时间或字符

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

缺失变量

配置需要做缺失值处理的数据变量。

整数或浮点数

(说明:若存在非数值数据,则会置为NaN)

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

OUT端口

参数名

参数描述

是否必填

输出数据类型

输出

输出包含保留变量、时间变量和缺失变量。

保留变量:与输入数据类型一致

时间变量:与输入数据类型一致

缺失变量:浮点数

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

处理方法

选择缺失值处理的方法。

填充

  • 填充

  • 剔除

填充方法

选择填充处理的方法。

当处理方法为“填充”时,才需要配置。

前值

  • 前值

  • 后值

  • 均值

  • 指定值

常数

指定需要填充的具体数值。

当填充方法为“指定值”时,才需要配置。

0

[-99999999,99999999]

阿里云首页 工业大脑开放平台 相关技术圈