二分类评估

二分类评估是一种用于评估二分类模型性能的技术,通过计算AUC、KSF1 Score等指标进行评估。该评估方法输出包括KS曲线、PR曲线、ROC曲线、LIFT ChartGain Chart,用以全面展示模型的分类效果和性能。

配置组件

方式一:可视化方式

Designer工作流页面添加二分类评估组件,并在界面右侧配置相关参数:

参数

描述

原始标签列列名

目标列的名称。

分数列列名

预测分数列,通常为prediction_score列。

正样本的标签值

正样本的分类。

计算KS、PR等指标时按等频分成多少个桶

将数据按照等频划分为桶的数量。

分组列列名

分组ID列。对各分组的数据分别计算评估指标,适用于分组评估场景。

高级选项

如果选中高级选项复选框,则预测结果详细列预测目标与评估目标是否一致保存性能指标参数生效。

预测结果详细列

预测结果详细列的名称。

预测目标与评估目标是否一致

例如,在金融场景中,训练程序预测坏人的概率,其值越大,表示样本越坏,相关指标(例如LIFT)评估的是抓坏率,此时预测目标与评估目标一致。在信用评分场景中,训练程序预测好人的概率,其值越大,表示样本越好,而相关指标评估的是抓坏率,此时预测目标与评估目标不一致。

保存性能指标

保存性能指标的开关。

方式二:PAI命令方式

使用PAI命令配置二分类评估组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name=evaluate -project=algo_public
    -DoutputMetricTableName=output_metric_table
    -DoutputDetailTableName=output_detail_table
    -DinputTableName=input_data_table
    -DlabelColName=label
    -DscoreColName=score

参数

是否必选

默认值

参数描述

inputTableName

输入表的名称。

inputTablePartitions

全表

输入表的分区。

labelColName

目标列的名称。

scoreColName

分数列的名称。

groupColName

分组列的名称,用于分组评估场景。

binCount

1000

计算KSPR等指标时,按照等频将数据分成的桶数量。

outputMetricTableName

输出的指标表,包括AUC、KSF1 Score指标。

outputDetailTableName

用于画图的详细数据表。

positiveLabel

1

正样本的分类。

lifecycle

输出表的生命周期。

coreNum

系统自动计算

核心数量。

memSizePerCore

系统自动计算

每个核心的内存。