阿里云首页 工业大脑开放平台

卡方分布拟合

本文为您介绍数据探索组件中的卡方分布拟合组件。

功能说明

卡方分布拟合组件支持对给定数据点进行卡方分布拟合,利用KS检验数据是否服从卡方分布,输出拟合后的概率分布,以及KS检验结果、卡方分布自由度。

计算逻辑原理

  • 卡方分布:卡方分布是统计推断中应用最广泛的概率分布之一。其定义为:若k个独立的随机变量

    p2,且均符合标准正态分布p2,则这k个随机变量的平方和
    p3
    为服从自由度为k的卡方分布,记为
    p4
    也可以记为:
    p5
    卡方分布的期望和方差分别为:
    p6
    其中,k为卡方分布的自由度。
  • KS检验:KS检验可以用于检验数据是否符合某种分布,其原假设H0:两个数据分布一致或者数据符合理论分布。进行KS检验会返回两个值D和p值。其中D表示两个分布之间的最大距离,所以D越小,因为这两个分布的差距越小,分布也就越一致;p值,也就是假设检验里面的p值,p值若小于显著性水平a,则拒绝原假设;若大于显著性水平,则接受原假设,p越大,说明两个分布越一致。从以上分析中看出,一般情况下,D值越小,p值越大。

参数说明

IN端口

参数名

参数描述

是否必填

输入数据类型

数据源类型

拟合列

需要做卡方分布拟合的变量。

整数或浮点数

说明

若存在非数值数据,则会抛出异常

  • csv组件

  • igateoffline组件

  • 平台上其他数据处理组件

  • 按照平台组件开发的自定义组件

OUT端口

参数名

参数描述

是否必填

输出数据类型

概率分布

输出拟合后的概率分布,输出参数与拟合列的输入参数一致。

浮点数

其他参数

参数名

参数描述

是否必填

参数默认值

参数范围

采样点数

对拟合后的概率密度函数进行采样。

100

[10,9999999]

显著性水平

KS检验的p值小于显著性水平(alpha),则不服从卡方分布。

0.05

  • 0.01:0.01

  • 0.05:0.05

  • 0.10:0.1

拟合评价

拟合效果展示,展示的指标分别为:拟合是否服从卡方分布、KS检验D值、KS检验p值、卡方分布的自由度。