皮尔森系数

皮尔森系数是一种线性相关系数,用于反映两个变量线性相关程度的统计量。机器学习中,皮尔森系数用于计算输入表或分区两列(数值列)的Pearson相关系数,计算结果输出至输出表。

组件配置

您可以使用以下任意一种方式,配置皮尔森系数组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

IO/字段设置

输入列1

输入计算相关系数列名。

输入列2。

输入计算相关系数列名。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

pai -name pearson
    -project algo_public
    -DinputTableName=wpbc
    -Dcol1Name=f1
    -Dcol2Name=f2
    -DoutputTableName=wpbc_pear;

参数名称

参数描述

是否必选

inputTableName

输入表的表名。

inputTablePartitions

系统默认选择所有分区。指定输入表的分区:

  • 指定单个分区,格式为partition_name=value

  • 指定多个分区,格式为name1=value1,name2=value2

    说明

    多个分区之间用英文逗号(,)分隔。

  • 指定多级分区,格式为name1=value1/name2=value2

col1Name

输入列1的列名。

col2Name

输入列2的列名。

outputTableName

输出结果表的表名。

lifecycle

输出表的生命周期。系统默认无生命周期。

说明

仅支持输入正整数。

示例

  • 输入表

    create table pai_pearson_test_input as
    select * from
    (
    select 1.0 as f0,0.11 as f1
    union all
    select 2.0 as f0,0.12 as f1
    union all
    select 3.0 as f0,0.13 as f1
    union all
    select 5.0 as f0,0.15 as f1
    union all
    select 8.0 as f0,0.18 as f1
    )tmp;
  • PAI命令

    pai -name pearson
        -project algo_public
        -DinputTableName=pai_pearson_test_input
        -Dcol1Name=f0
        -Dcol2Name=f1
        -DoutputTableName=pai_pearson_test_output;
  • 输出表

    +------------+------------+------------+------------+-------------+-------------+---------------------+
    | src_table  | src_parts  | col1_name  | col2_name  | count_total | count_valid | pearson_coefficient |
    +------------+------------+------------+------------+-------------+-------------+---------------------+
    | sre_mpi_algo_dev.pai_pearson_test_input |            | f0         | f1         | 5           | 5           | 0.9999999999999973  |
    +------------+------------+------------+------------+-------------+-------------+---------------------+