群体稳定性指标PSI

群体稳定性指标(Population Stability Index,简称PSI)用于检查数据实际分布和预期分布的差异,以评估模型的稳定性。

使用场景

PSI通常用于风控领域。在风控领域,稳定性是判断模型是否有效的一个因素。因为一套风控模型正式上线运行后需要很长时间(通常一年以上)才会被替换下线。如果模型不稳定,意味着模型不可控,对于业务本身而言就存在一种不确定性风险,将直接影响决策的合理性。

语法

CREATE FEATURE feature_name WITH ( feature_class = '', x_cols = '', parameters=())

语法中对应的参数说明如下:

参数

说明

feature_name

特征名称。

feature_class

特征的类型。固定值psi。

x_cols

自变量列表。多个自变量之间使用英文逗号(,)分隔。

parameters

创建特征时用户自定义的参数。取值如下:

  • actual_table:数据实际分布表。

  • predict_table:数据预期分布表。

  • bin_num:分箱数。需要与bins_method搭配使用,会根据分箱方式和实际数据进行计算,可不填。

  • bins_method:分箱方式。取值如下:

    • chi(默认):卡方分箱。

    • quantile:等频分箱。

    • step:等步长分箱。

    • dt:决策树分箱。

    • kmean:基于k均值聚类分箱。

  • categorical_feature:类目型的特征。多个类目型之间使用英文逗号(,)分隔。

示例

/*polar4ai*/CREATE FEATURE psi_001 WITH ( feature_class = 'psi',x_cols='Airline,Flight,AirportFrom,AirportTo,DayOfWeek,Time,Length',parameters=(actual_table='airlines_train_1000',predict_table='airlines_test_1000',bins_num=10,bins_method='quantile',categorical_feature='Airline,Flight,AirportFrom,AirportTo,DayOfWeek'));