阿里云首页 工业大脑开放平台

离群点剔除

本文为您介绍数据处理组件中的离群点剔除组件。

功能说明

离群点剔除组件支持根据指定的方法剔除数据的离群值,包括标准差法和波峰剔除法。在很多项目中,数据集中会出现一些异常值(离群点),为消除异常值对结果的影响,需要将异常值进行剔除。

应用场景:如图,在历史数据中,会时长出现一些明显异常的值,图中①、②、③处。这些明显区别于其他历史数据的数据点需要剔除。

计算逻辑原理

  • 拉依达准则(3σ)(即标准差法)

    :是最常用的异常值判定与剔除准则。假设数据值的总体是服从正态分布的,那么:

    p1式中,分别表示数学期望与标准差。数据值中出现大于式中,或者小于数据值的概率是很小的。因此将之作为异常值,予以剔除。

  • 波峰剔除:

    步骤如下:

    1. 对数据进行中心化处理;

    2. 将数据进行等量划分,设定区间长度N,幅值限定值limit;

    3. 区间内数据均值为 ,最大值为max,最小值为min,满足下面两个条件,筛选通过:

p2

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

时间列

配置时间变量。

时间或字符

说明

若存在非时间数据,则会抛出异常

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

数据列

配置需要做离群点剔除处理的变量。

整数或浮点数

说明

若存在非数值数据,则会置为NaN

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

OUT端口

参数名

参数描述

是否必填

输出数据类型

输出

输出参数包含时间列与数据列的输入参数。

时间列输出字符型,数据列输出浮点型

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

选用方法

选择离群值的判断方法。

必填。

标准差法

  • 标准差法

  • 波峰剔除

阈值

标准差的阈值,值越大,剔除的异常点越少。

当选用方法为“标准差法”时,才需要配置。

3

[0,5]

区间长度

等量划分的区间数据点数量。

当选用方法为“波峰剔除”时,才需要配置。

20

[2,99999999]

幅值限定

当选用方法为“波峰剔除”时,才需要配置。

1

[0,99999999]

剔除方式

  • 删行:将异常点所在的那一行删除。

  • 置空:将异常点置为NaN。

置空

  • 删行

  • 置空