二分类评估是一种用于评估二分类模型性能的技术,通过计算AUC、KS及F1 Score等指标进行评估。该评估方法输出包括KS曲线、PR曲线、ROC曲线、LIFT Chart及Gain Chart,用以全面展示模型的分类效果和性能。
配置组件
方式一:可视化方式
在Designer工作流页面添加二分类评估组件,并在界面右侧配置相关参数:
参数  | 描述  | 
原始标签列列名  | 目标列的名称。  | 
分数列列名  | 预测分数列,通常为prediction_score列。  | 
正样本的标签值  | 正样本的分类。  | 
计算KS、PR等指标时按等频分成多少个桶  | 将数据按照等频划分为桶的数量。  | 
分组列列名  | 分组ID列。对各分组的数据分别计算评估指标,适用于分组评估场景。  | 
高级选项  | 如果选中高级选项复选框,则预测结果详细列、预测目标与评估目标是否一致及保存性能指标参数生效。  | 
预测结果详细列  | 预测结果详细列的名称。  | 
预测目标与评估目标是否一致  | 例如,在金融场景中,训练程序预测坏人的概率,其值越大,表示样本越坏,相关指标(例如LIFT)评估的是抓坏率,此时预测目标与评估目标一致。在信用评分场景中,训练程序预测好人的概率,其值越大,表示样本越好,而相关指标评估的是抓坏率,此时预测目标与评估目标不一致。  | 
保存性能指标  | 保存性能指标的开关。  | 
方式二:PAI命令方式
使用PAI命令配置二分类评估组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name=evaluate -project=algo_public
    -DoutputMetricTableName=output_metric_table
    -DoutputDetailTableName=output_detail_table
    -DinputTableName=input_data_table
    -DlabelColName=label
    -DscoreColName=score参数  | 是否必选  | 默认值  | 参数描述  | 
inputTableName  | 是  | 无  | 输入表的名称。  | 
inputTablePartitions  | 否  | 全表  | 输入表的分区。  | 
labelColName  | 是  | 无  | 目标列的名称。  | 
scoreColName  | 是  | 无  | 分数列的名称。  | 
groupColName  | 否  | 无  | 分组列的名称,用于分组评估场景。  | 
binCount  | 否  | 1000  | 计算KS及PR等指标时,按照等频将数据分成的桶数量。  | 
outputMetricTableName  | 是  | 无  | 输出的指标表,包括AUC、KS及F1 Score指标。  | 
outputDetailTableName  | 否  | 无  | 用于画图的详细数据表。  | 
positiveLabel  | 否  | 1  | 正样本的分类。  | 
lifecycle  | 否  | 无  | 输出表的生命周期。  | 
coreNum  | 否  | 系统自动计算  | 核心数量。  | 
memSizePerCore  | 否  | 系统自动计算  | 每个核心的内存。  |