二分类评估

二分类评估通过计算AUC、KSF1 Score指标,输出KS曲线、PR曲线、ROC曲线、LIFT ChartGain Chart。

组件配置

您可以使用以下任意一种方式,配置二分类评估组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

参数

描述

原始标签列列名

目标列的名称。

分数列列名

预测分数列,通常为prediction_score列。

正样本的标签值

正样本的分类。

计算KS、PR等指标时按等频分成多少个桶

将数据按照等频划分为桶的数量。

分组列列名

分组ID列。对各分组的数据分别计算评估指标,适用于分组评估场景。

高级选项

如果选中高级选项复选框,则预测结果详细列预测目标与评估目标是否一致保存性能指标参数生效。

预测结果详细列

预测结果详细列的名称。

预测目标与评估目标是否一致

例如,在金融场景中,训练程序预测坏人的概率,其值越大,表示样本越坏,相关指标(例如LIFT)评估的是抓坏率,此时预测目标与评估目标一致。在信用评分场景中,训练程序预测好人的概率,其值越大,表示样本越好,而相关指标评估的是抓坏率,此时预测目标与评估目标不一致。

保存性能指标

保存性能指标的开关。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name=evaluate -project=algo_public
    -DoutputMetricTableName=output_metric_table
    -DoutputDetailTableName=output_detail_table
    -DinputTableName=input_data_table
    -DlabelColName=label
    -DscoreColName=score

参数

是否必选

参数描述

默认值

inputTableName

输入表的名称。

inputTablePartitions

输入表的分区。

全表

labelColName

目标列的名称。

scoreColName

分数列的名称。

groupColName

分组列的名称,用于分组评估场景。

binCount

计算KSPR等指标时,按照等频将数据分成的桶数量。

1000

outputMetricTableName

输出的指标表,包括AUC、KSF1 Score指标。

outputDetailTableName

用于画图的详细数据表。

positiveLabel

正样本的分类。

1

lifecycle

输出表的生命周期。

coreNum

核心数量。

系统自动计算

memSizePerCore

每个核心的内存。

系统自动计算