Pearson相关系数(Pearson Correlation Coefficient)用于衡量两个数据集合的线性关系。Pearson相关系数的绝对值越大,相关性越强。本文介绍了Pearson相关系数的相关内容。
使用场景
Pearson相关系数的适用范围如下:
- 两个变量的标准差都不为零。
- 两个变量之间是线性关系,且都是连续的数据。
- 双变量正态分布,或接近正态的单峰分布。
语法
CREATE FEATURE feature_name WITH ( feature_class = '', x_cols = '', parameters=()) AS (SELECT select_expr [, select_expr] ... FROM table_reference)
语法中对应的参数说明如下:参数 | 说明 |
---|---|
feature_name | 特征名称。 |
feature_class | 特征的类型。固定值pearson。 |
x_cols | 自变量列表,多个自变量之间使用英文逗号(,)分隔。 |
parameters | 创建特征时用户自定义的参数。取值如下:
|
select_expr | 用于创建特征的列名。 |
table_reference | 用于创建特征的列所在的表的名称。 |
示例
/*polar4ai*/CREATE FEATURE pearson_001 WITH ( feature_class = 'pearson',x_cols='Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length',parameters=(null_strategy='mean',categorical_feature='Airline,Flight,AirportFrom,AirportTo,DayOfWeek')) AS (SELECT * FROM airlines_test_1000);