二分类评估是一种用于评估二分类模型性能的技术,通过计算AUC、KS及F1 Score等指标进行评估。该评估方法输出包括KS曲线、PR曲线、ROC曲线、LIFT Chart及Gain Chart,用以全面展示模型的分类效果和性能。
配置组件
方式一:可视化方式
在Designer工作流页面添加二分类评估组件,并在界面右侧配置相关参数:
参数 | 描述 |
原始标签列列名 | 目标列的名称。 |
分数列列名 | 预测分数列,通常为prediction_score列。 |
正样本的标签值 | 正样本的分类。 |
计算KS、PR等指标时按等频分成多少个桶 | 将数据按照等频划分为桶的数量。 |
分组列列名 | 分组ID列。对各分组的数据分别计算评估指标,适用于分组评估场景。 |
高级选项 | 如果选中高级选项复选框,则预测结果详细列、预测目标与评估目标是否一致及保存性能指标参数生效。 |
预测结果详细列 | 预测结果详细列的名称。 |
预测目标与评估目标是否一致 | 例如,在金融场景中,训练程序预测坏人的概率,其值越大,表示样本越坏,相关指标(例如LIFT)评估的是抓坏率,此时预测目标与评估目标一致。在信用评分场景中,训练程序预测好人的概率,其值越大,表示样本越好,而相关指标评估的是抓坏率,此时预测目标与评估目标不一致。 |
保存性能指标 | 保存性能指标的开关。 |
方式二:PAI命令方式
使用PAI命令配置二分类评估组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name=evaluate -project=algo_public
-DoutputMetricTableName=output_metric_table
-DoutputDetailTableName=output_detail_table
-DinputTableName=input_data_table
-DlabelColName=label
-DscoreColName=score
参数 | 是否必选 | 默认值 | 参数描述 |
inputTableName | 是 | 无 | 输入表的名称。 |
inputTablePartitions | 否 | 全表 | 输入表的分区。 |
labelColName | 是 | 无 | 目标列的名称。 |
scoreColName | 是 | 无 | 分数列的名称。 |
groupColName | 否 | 无 | 分组列的名称,用于分组评估场景。 |
binCount | 否 | 1000 | 计算KS及PR等指标时,按照等频将数据分成的桶数量。 |
outputMetricTableName | 是 | 无 | 输出的指标表,包括AUC、KS及F1 Score指标。 |
outputDetailTableName | 否 | 无 | 用于画图的详细数据表。 |
positiveLabel | 否 | 1 | 正样本的分类。 |
lifecycle | 否 | 无 | 输出表的生命周期。 |
coreNum | 否 | 系统自动计算 | 核心数量。 |
memSizePerCore | 否 | 系统自动计算 | 每个核心的内存。 |