单样本T检验

单样本T检验是一种统计方法,用于评估样本均值与已知总体均值之间是否存在显著差异。该检验假设总体数据服从正态分布,特别是在样本量较小时,这一假设尤为关键。通过计算T统计量,并参考自由度查找T分布表,可以得出关于均值差异的显著性结论。

组件配置

方式一:可视化方式

Designer工作流页面添加单样本T检验组件,并在界面右侧配置相关参数:

参数类型

参数

描述

字段设置

样本1所在列

样本数据所在的列。

参数设置

对立假设类型

对立假设的类型,取值:

  • two.sided:双尾检验,即样本均值不等于假设均值。

  • less:左尾检验,即样本均值小于假设均值。

  • greater:右尾检验,即样本均值大于假设均值。

置信度

检测结果的置信度,取值包括:0.8、0.9、0.95、0.99、0.995、0.999。

假设均值大小

在原假设中假设的总体均值,与样本均值进行比较。

节点个数

节点个数,正整数格式。

单个节点内存大小

每个节点的内存大小,取值范围1 MB~65536 MB。

方式二:PAI命令方式

使用PAI命令配置单样本T检验组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见场景4:在SQL脚本组件中执行PAI命令

pai -name t_test -project algo_public
    -DxTableName=pai_t_test_all_type
    -DxColName=col1_double
    -DoutputTableName=pai_t_test_out
    -DxTablePartitions=ds=2010/dt=1
    -Dalternative=less
    -Dmu=47
    -DconfidenceLevel=0.95

参数

是否必须

默认值

描述

xTableName

表名称。

xColName

需要进行T检验的列。

outputTableName

输出表名称。

xTablePartitions

表的分区列表。

alternative

two.sided

对立假设。

mu

0

假设的均值。

confidenceLevel

0.95

置信度。

输出示例

{
    "AlternativeHypthesis": "mean not equals to 0",
    "ConfidenceInterval": "(44.72234194006504, 46.27765805993496)",
    "ConfidenceLevel": 0.95,
    "alpha": 0.05,
    "df": 99,
    "mean": 45.5,
    "p": 0,
    "stdDeviation": 3.919647479510927,
    "t": 116.081867662439
}