二分类评估通过计算AUC、KS及F1 Score指标,输出KS曲线、PR曲线、ROC曲线、LIFT Chart及Gain Chart。

组件配置

PAI-Studio支持通过可视化或PAI命令的方式,配置该组件参数:
  • 可视化方式
    参数 描述
    原始标签列列名 目标列的名称。
    分数列列名 预测分数列,通常为prediction_score列。
    正样本的标签值 正样本的分类。
    计算KS、PR等指标时按等频分成多少个桶 将数据按照等频划分为桶的数量。
    分组列列名 分组ID列。对各分组的数据分别计算评估指标,适用于分组评估场景。
    高级选项 如果选中高级选项复选框,则预测结果详细列预测目标与评估目标是否一致保存性能指标参数生效。
    预测结果详细列 预测结果详细列的名称。
    预测目标与评估目标是否一致 例如,在金融场景中,训练程序预测坏人的概率,其值越大,表示样本越坏,相关指标(例如LIFT)评估的是抓坏率,此时预测目标与评估目标一致。在信用评分场景中,训练程序预测好人的概率,其值越大,表示样本越好,而相关指标评估的是抓坏率,此时预测目标与评估目标不一致。
    保存性能指标 保存性能指标的开关。
  • PAI命令方式
    PAI -name=evaluate -project=algo_public
        -DoutputMetricTableName=output_metric_table
        -DoutputDetailTableName=output_detail_table
        -DinputTableName=input_data_table
        -DlabelColName=label
        -DscoreColName=score
    参数 是否必选 参数描述 默认值
    inputTableName 输入表的名称。
    inputTablePartitions 输入表的分区。 全表
    labelColName 目标列的名称。
    scoreColName 分数列的名称。
    groupColName 分组列的名称,用于分组评估场景。
    binCount 计算KS及PR等指标时,按照等频将数据分成的桶数量。 1000
    outputMetricTableName 输出的指标表,包括AUC、KS及F1 Score指标。
    outputDetailTableName 用于画图的详细数据表。
    positiveLabel 正样本的分类。 1
    lifecycle 输出表的生命周期。
    coreNum 核心数量。 系统自动计算
    memSizePerCore 每个核心的内存。 系统自动计算