离群点剔除

本文为您介绍离群点剔除组件。

功能说明

离群点剔除组件支持根据指定的方法剔除数据的离群值,包括标准差法和波峰剔除法。在很多项目中,数据集中会出现一些异常值(离群点),为消除异常值对结果的影响,需要将异常值进行剔除。

应用场景:

如图1,在历史数据中,会时长出现一些明显异常的值,图中①、②、③处。这些明显区别于其他历史数据的数据点需要剔除。

F7AC1B35-D5E2-4fa1-BD3C-BB47CA3F5A74.png

图 1

历史数据中,会有一段明显异常的波谷,它可能是工业生产上的某些因素导致,但这些异常点不是我们想要的,也需要剔除。

计算逻辑原理

  • 拉依达准则(3σ)(即标准差法):是最常用的异常值判定与剔除准则。假设数据值的总体是服从正态分布的,那么:

    p1

    式中,μ、σ分别表示数学期望与标准差。数据值中出现大于式中,或者小于数据值的概率是很小的。因此将之作为异常值,予以剔除。

  • 波峰剔除:步骤如下。

    1. 对数据进行中心化处理。

    2. 将数据进行等量划分,设定区间长度N,幅值限定值limit。

    3. 区间内数据均值为 ,最大值为max,最小值为min,满足下面两个条件,筛选通过。

p2

参数说明

IN端口-输入参数

参数名

参数描述

是否必填

输入数据类型

数据源类型

时间变量

如果数据跟时间有关系,则需要配置时间变量,配置了时间变量,会将数据按时间变量进行排序,再做后续处理。

算法支持的输入时间格式为:

  • yyyy-mm-dd hh:mm:ss 或 mm-dd-yyyy hh:mm:ss

  • yyyy/mm/dd hh:mm:ss 或 mm/dd/yyyy hh:mm:ss

  • hh:mm:ss yyyy-mm-dd 或 hh:mm:ss mm-dd-yyyy

  • hh:mm:ss yyyy/mm/dd 或 hh:mm:ss mm/dd/yyyy

年月日和时分秒之间也可用大写T连接,例如:2023-01-11T12:01:00。

建议输入时间格式:yyyy-mm-dd hh:mm:ss。

输出时间格式为:yyyy-mm-dd hh:mm:ss。

时间或字符

说明

若存在非时间数据,则会抛出异常。

  • csv组件。

  • igateoffline组件。

  • 平台上其他数据处理组件。

  • 按照平台组件开发的自定义组件。

离群变量

配置需要做离群点剔除处理的变量。

整数或浮点数

说明

若存在非数值数据,则会置为NaN。

-

OUT端口-输出参数

参数名

参数描述

输出数据类型

输出

输出包含时间变量和离群变量。

时间变量:与输入类型一致。

离群变量:浮点型。

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

选用方法

选择离群值的判断方法。

标准差法

  • 标准差法

  • 波峰剔除

剔除方式

  • 删行:将异常点所在的那一行删除。

  • 置空:将异常点置为NaN。

置空

  • 删行

  • 置空

标准差法:

参数名

参数描述

是否必填

参数默认值

参数范围

阈值

标准差的阈值,值越大,剔除的异常点越少。

当选用方法为“标准差法”时,才需要配置。

3

[0,5]

波峰剔除法:

参数名

参数描述

是否必填

参数默认值

参数范围

区间长度

等量划分的区间数据点数量。

当选用方法为“波峰剔除”时,才需要配置。

20

[2,99999999]

幅值限定

无。

当选用方法为“波峰剔除”时,才需要配置。

1

[0,99999999]