皮尔森系数是一种线性相关系数,用于反映两个变量线性相关程度的统计量。机器学习中,皮尔森系数用于计算输入表或分区两列(数值列)的Pearson相关系数,计算结果输出至输出表。

组件配置

您可以通过以下方式,配置离散值特征分析组件参数:
  • 可视化方式
    页签 参数 描述
    IO/字段设置 输入列1 输入计算相关系数列名。
    输入列2。 输入计算相关系数列名。
  • PAI命令
    pai -name pearson
        -project algo_public
        -DinputTableName=wpbc
        -Dcol1Name=f1
        -Dcol2Name=f2
        -DoutputTableName=wpbc_pear;
    参数名称 参数描述 是否必选
    inputTableName 输入表的表名。
    inputTablePartitions 系统默认选择所有分区。指定输入表的分区:
    • 指定单个分区,格式为partition_name=value
    • 指定多个分区,格式为name1=value1,name2=value2
      说明 多个分区之间用英文逗号(,)分隔。
    • 指定多级分区,格式为name1=value1/name2=value2
    col1Name 输入列1的列名。
    col2Name 输入列2的列名。
    outputTableName 输出结果表的表名。
    lifecycle 输出表的生命周期。系统默认无生命周期。
    说明 仅支持输入正整数。

示例

  • 输入表
    create table pai_pearson_test_input as
    select * from
    (
    select 1.0 as f0,0.11 as f1
    union all
    select 2.0 as f0,0.12 as f1
    union all
    select 3.0 as f0,0.13 as f1
    union all
    select 5.0 as f0,0.15 as f1
    union all
    select 8.0 as f0,0.18 as f1
    )tmp;
  • PAI命令
    pai -name pearson
        -project algo_public
        -DinputTableName=pai_pearson_test_input
        -Dcol1Name=f0
        -Dcol2Name=f1
        -DoutputTableName=pai_pearson_test_output;
  • 输出表
    +------------+------------+------------+------------+-------------+-------------+---------------------+
    | src_table  | src_parts  | col1_name  | col2_name  | count_total | count_valid | pearson_coefficient |
    +------------+------------+------------+------------+-------------+-------------+---------------------+
    | sre_mpi_algo_dev.pai_pearson_test_input |            | f0         | f1         | 5           | 5           | 0.9999999999999973  |
    +------------+------------+------------+------------+-------------+-------------+---------------------+