配置混淆矩阵组件-人工智能平台 PAI(PAI)-阿里云帮助中心

混淆矩阵（Confusion Matrix）适用于监督学习，与无监督学习中的匹配矩阵对应。在精度评价中，混淆矩阵主要用于比较分类结果和实际测量值，可以将分类结果的精度显示在一个矩阵中。本文为您介绍混淆矩阵组件的配置方法。

使用限制

支持的计算引擎为MaxCompute。

组件配置

您可以使用以下任意一种方式，配置混淆矩阵组件参数。

方式一：可视化方式

在Designer工作流页面配置组件参数。

参数	描述
原数据的标签列列名	支持数值类型。
预测结果的标签列列名	如果未配置阈值，则该参数必选。
阈值	大于该参数值的样本为正样本。
预测结果的详细列列名	与预测结果的标签列列名不能共存。如果已配置阈值，则该参数必选。
正样本的标签值	如果已配置阈值，则该参数必选。

方式二：PAI命令方式

使用PAI命令方式，配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用，详情请参见SQL脚本。

未指定阈值

pai -name confusionmatrix -project algo_public
    -DinputTableName=wpbc_pred
    -DoutputTableName=wpbc_confu
    -DlabelColName=label
    -DpredictionColName=prediction_result;

指定阈值

pai -name confusionmatrix -project algo_public
    -DinputTableName=wpbc_pred
    -DoutputTableName=wpbc_confu
    -DlabelColName=label
    -DpredictionDetailColName=prediction_detail
    -Dthreshold=0.8
    -DgoodValue=N;

参数	是否必选	描述	默认值
inputTableName	是	输入表的名称，即预测输出表。	无
inputTablePartition	否	输入表的分区。	全表
outputTableName	是	输出表的名称，用于存储混淆矩阵。	无
labelColName	是	原始标签列的名称。	无
predictionColName	否	预测结果列的名称。如果未配置threshold，则该参数必选。	无
predictionDetailColName	否	预测结果详细列的名称。如果已配置threshold，则该参数必选。	无
threshold	否	划分正样本的阈值。	0.5
goodValue	否	二分类时，指定训练系数对应的标签值。如果已配置threshold，则该参数必选。	无
coreNum	否	计算的核心数量。	系统自动分配
memSizePerCore	否	每个核心的内存，单位为MB。	系统自动分配
lifecycle	否	输出表的生命周期。	无

示例

用MaxCompute客户端创建表test_data，其中列字段和数据类型为id bigint、label string、prediction_result string。关于MaxCompute客户端的安装及配置请参见使用本地客户端（odpscmd）连接，如何创建表，请参见创建表。

将如下测试数据导入到表test_data中。如何导入数据，请参见导入数据。

id	label	prediction_result
0	A	A
1	A	B
2	A	A
3	A	A
4	B	B
5	B	B
6	B	A
7	B	B
8	B	A
9	A	A

构建如下工作流，并运行组件，详情请参见算法建模。

在Designer左侧组件列表中，分别搜索读数据表组件和混淆矩阵组件，并拖入右侧画布中。
参照以上步骤，通过连线的方式，将各个节点组织构建成为一个有上下游关系的工作流。

配置组件参数。

在画布中单击读数据表-1组件，在右侧表选择页签，配置表名为test_data。

在画布中单击混淆矩阵-1组件，在右侧配置如下表中的参数，其余参数使用默认值。

参数	描述
原数据的标签列列名	选择label列。
预测结果的标签列列名	输入prediction_result。

参数配置完成后，单击运行按钮，运行工作流。

工作流运行成功后，右键单击混淆矩阵-1组件，在快捷菜单，选择可视化分析，查看混淆矩阵组件的输出结果。
- 单击混淆矩阵页签，查看输出的混淆矩阵。
- 单击统计信息页签，查看模型统计信息。
  
  统计信息包括 TruePositive、FalsePositive、Accuracy、Precision、Recall 和 F1 Score。例如，Model A 的指标值分别为 4、2、0.7、0.6667、0.8、0.7273；Model B 的指标值分别为 3、1、0.7、0.75、0.6、0.6667。

使用限制

组件配置

方式一：可视化方式

方式二：PAI命令方式

示例

相关文档