回归模型评估

回归模型评估是指通过比较模型的预测结果与真实结果,使用回归指标(如均方误差、平均绝对误差、决定系数等)来量化模型的性能优劣。评估过程中,通常还会生成残差直方图等可视化工具,以便分析预测误差的分布特性,帮助识别模型潜在的改进空间。此过程可确保模型具备良好的预测能力和稳定性。

配置组件

方式一:可视化方式

Designer工作流页面添加回归模型评估组件,并在界面右侧配置相关参数:

参数类型

参数

描述

字段设置

原回归值

数据集中目标变量的实际观测值,用于评估回归模型的预测性能,作为比较的基准。

预测回归值

通过回归模型计算得到的目标变量的估计值。模型根据输入特征生成这些预测值。

执行调优

节点个数

节点个数和单节点占用的内存大小配置方法请参见附录:如何预估资源的使用量

单个节点内存大小

方式二:PAI命令方式

使用PAI命令配置回归模型评估组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见场景4:在SQL脚本组件中执行PAI命令

PAI -name regression_evaluation -project algo_public
    -DinputTableName=input_table
    -DyColName=y_col
    -DpredictionColName=prediction_col
    -DindexOutputTableName=index_output_table
    -DresidualOutputTableName=residual_output_table;

参数

是否必选

默认值

描述

inputTableName

输入表的名称。

inputTablePartitions

全表

输入表中,参与计算的分区。

yColName

输入表中,原始因变量的列名,支持数值类型。

predictionColName

预测结果中,因变量的列名,支持数值类型。

indexOutputTableName

回归指标输出表的名称。

residualOutputTableName

残差直方图输出表的名称。

intervalNum

100

直方图区间数量。

lifecycle

输出表的生命周期,取值范围为正整数。

coreNum

系统自动设置

Instance数量,取值范围为1~9999。

memSizePerCore

系统自动设置

每个核心的内存,取值范围为1024 MB~64*1024 MB。

组件输出

回归指标输出表的结果为JSON格式,包括以下参数:

参数

描述

SST

总平方和

SSE

误差平方和

SSR

回归平方和

R2

判定系数

R

多重相关系数

MSE

均方误差

RMSE

均方根误差

MAE

平均绝对误差

MAD

平均绝对偏差

MAPE

平均绝对百分误差

count

行数

yMean

原始因变量的均值

predictionMean

预测结果的均值