阿里云首页 工业大脑开放平台

高斯拟合分布

本文为您介绍数据探索组件中的高斯分布拟合组件。

功能说明

高斯拟合分布组件支持对给定数据点进行高斯分布拟合,利用KS检验数据是否服从高斯分布,输出拟合后的概率分布,以及KS检验结果、高斯分布均值、标准差。

计算逻辑原理

  • 高斯分布:若随机变量p1服从一个位置参数p1、尺度参数为p3的概率分布,且其概率密度函数为:

    p4
    则这个随机变量就服从正态分布,记作p5。正态分布有两个参数,即期望p6和方差p7 ,当p8时,就称为标准正态分布。
  • KS检验:KS检验可以用于检验数据是否符合某种分布,其原假设H0:两个数据分布一致或者数据符合理论分布。进行KS检验会返回两个值D和p值。其中D表示两个分布之间的最大距离,所以D越小,因为这两个分布的差距越小,分布也就越一致;p值,也就是假设检验里面的p值,p值若小于显著性水平a,则拒绝原假设;若大于显著性水平,则接受原假设,p越大,说明两个分布越一致。从以上分析中看出,一般情况下,D值越小,p值越大。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

拟合列

需要做高斯分布拟合的变量。

整数或浮点数

说明

若存在非数值数据,则会抛出异常

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

OUT端口

参数名

参数描述

是否必填

输出数据类型

概率分布

输出拟合后的概率分布,输出参数与拟合列的输入参数一致。

浮点数

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

采样点数

对拟合后的概率密度函数进行采样。

100

[10,9999999]

显著性水平

KS检验p值小于显著性水平(alpha),则不服从高斯分布。

0.05

  • 0.01:0.01

  • 0.05:0.05

  • 0.10:0.1

拟合评价

拟合效果展示,展示的指标分别为:拟合是否服从高斯分布、KS检验D值、KS检验p值、拟合后分布均值、拟合后分布标准差。