本文为您介绍离群点剔除组件。
功能说明
离群点剔除组件支持根据指定的方法剔除数据的离群值,包括标准差法和波峰剔除法。在很多项目中,数据集中会出现一些异常值(离群点),为消除异常值对结果的影响,需要将异常值进行剔除。
应用场景:
如图1,在历史数据中,会时长出现一些明显异常的值,图中①、②、③处。这些明显区别于其他历史数据的数据点需要剔除。
图 1
历史数据中,会有一段明显异常的波谷,它可能是工业生产上的某些因素导致,但这些异常点不是我们想要的,也需要剔除。
计算逻辑原理
拉依达准则(3σ)(即标准差法):是最常用的异常值判定与剔除准则。假设数据值的总体是服从正态分布的,那么:
式中,μ、σ分别表示数学期望与标准差。数据值中出现大于式中,或者小于数据值的概率是很小的。因此将之作为异常值,予以剔除。
波峰剔除:步骤如下。
对数据进行中心化处理。
将数据进行等量划分,设定区间长度N,幅值限定值limit。
区间内数据均值为 ,最大值为max,最小值为min,满足下面两个条件,筛选通过。
参数说明
IN端口-输入参数
参数名 | 参数描述 | 是否必填 | 输入数据类型 | 数据源类型 |
时间变量 | 如果数据跟时间有关系,则需要配置时间变量,配置了时间变量,会将数据按时间变量进行排序,再做后续处理。 算法支持的输入时间格式为:
年月日和时分秒之间也可用大写T连接,例如:2023-01-11T12:01:00。 建议输入时间格式:yyyy-mm-dd hh:mm:ss。 输出时间格式为:yyyy-mm-dd hh:mm:ss。 | 否 | 时间或字符 说明 若存在非时间数据,则会抛出异常。 |
|
离群变量 | 配置需要做离群点剔除处理的变量。 | 是 | 整数或浮点数 说明 若存在非数值数据,则会置为NaN。 | - |
OUT端口-输出参数
参数名 | 参数描述 | 输出数据类型 |
输出 | 输出包含时间变量和离群变量。 | 时间变量:与输入类型一致。 离群变量:浮点型。 |
其他参数
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
选用方法 | 选择离群值的判断方法。 | 是 | 标准差法 |
|
剔除方式 |
| 是 | 置空 |
|
标准差法:
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
阈值 | 标准差的阈值,值越大,剔除的异常点越少。 | 当选用方法为“标准差法”时,才需要配置。 | 3 | [0,5] |
波峰剔除法:
参数名 | 参数描述 | 是否必填 | 参数默认值 | 参数范围 |
区间长度 | 等量划分的区间数据点数量。 | 当选用方法为“波峰剔除”时,才需要配置。 | 20 | [2,99999999] |
幅值限定 | 无。 | 当选用方法为“波峰剔除”时,才需要配置。 | 1 | [0,99999999] |