全部产品

离群点剔除

本文为您介绍数据处理组件中的离群点剔除组件。

功能说明

离群点剔除组件支持根据指定的方法剔除数据的离群值,包括标准差法和波峰剔除法。

计算逻辑原理

  • 拉依达准则(3σ),即标准差法,是最常用的异常值判定与剔除准则。假设数据值的总体是服从正态分布的,那么:P(∣x-μ∣>3σ)<0.03。式中,μ、σ分别表示数学期望与标准差。数据值中出现大于式中,或者小于数据值的概率是很小的。因此将之作为异常值,予以剔除。

  • 波峰剔除,步骤如下:

    1. 对数据进行中心化处理。

    2. 将数据进行等量划分,设定区间长度N,幅值限定值limit。

    3. 区间内数据均值为μ,最大值为max,最小值为min,满足以下条件,筛选通过:

      ∣μ∣<limit, max-limit<limit

使用流程说明

完成输入输出变量配置和参数配置。

参数说明

IN端口

参数名

参数描述

时间列

非必填,配置时间变量。

数据列

必填,配置需要做离群点剔除处理的变量。

OUT端口

参数名

参数描述

输出

输出参数包含时间列与数据列的输入参数。

其他参数

参数名

参数描述

参数默认值

参数范围

选用方法

选择离群值的判断方法。

标准差法

  • 标准差法

  • 波峰剔除

阈值

标准差的阈值,值越大,剔除的异常点越少。

当选用方法为标准差法时,才需要配置。

3

[0,5]

区间长度

等量划分的区间数据点数量。

当选用方法为波峰剔除时,才需要配置。

20

[2,99999999]

幅值限定

当选用方法为波峰剔除时,才需要配置。

1

[0,99999999]

剔除方式

  • 删行:将异常点所在的那一行删除。

  • 置空:将异常点置为NaN。

置空

  • 删行

  • 置空