回归模型评估是指通过比较模型的预测结果与真实结果,使用回归指标(如均方误差、平均绝对误差、决定系数等)来量化模型的性能优劣。评估过程中,通常还会生成残差直方图等可视化工具,以便分析预测误差的分布特性,帮助识别模型潜在的改进空间。此过程可确保模型具备良好的预测能力和稳定性。
配置组件
方式一:可视化方式
在Designer工作流页面添加回归模型评估组件,并在界面右侧配置相关参数:
参数类型 | 参数 | 描述 |
字段设置 | 原回归值 | 数据集中目标变量的实际观测值,用于评估回归模型的预测性能,作为比较的基准。 |
预测回归值 | 通过回归模型计算得到的目标变量的估计值。模型根据输入特征生成这些预测值。 | |
执行调优 | 节点个数 | 节点个数和单节点占用的内存大小配置方法请参见附录:如何预估资源的使用量。 |
单个节点内存大小 |
方式二:PAI命令方式
使用PAI命令配置回归模型评估组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见场景4:在SQL脚本组件中执行PAI命令。
PAI -name regression_evaluation -project algo_public
-DinputTableName=input_table
-DyColName=y_col
-DpredictionColName=prediction_col
-DindexOutputTableName=index_output_table
-DresidualOutputTableName=residual_output_table;
参数 | 是否必选 | 默认值 | 描述 |
inputTableName | 是 | 无 | 输入表的名称。 |
inputTablePartitions | 否 | 全表 | 输入表中,参与计算的分区。 |
yColName | 是 | 无 | 输入表中,原始因变量的列名,支持数值类型。 |
predictionColName | 是 | 无 | 预测结果中,因变量的列名,支持数值类型。 |
indexOutputTableName | 是 | 无 | 回归指标输出表的名称。 |
residualOutputTableName | 是 | 无 | 残差直方图输出表的名称。 |
intervalNum | 否 | 100 | 直方图区间数量。 |
lifecycle | 否 | 无 | 输出表的生命周期,取值范围为正整数。 |
coreNum | 否 | 系统自动设置 | Instance数量,取值范围为1~9999。 |
memSizePerCore | 否 | 系统自动设置 | 每个核心的内存,取值范围为1024 MB~64*1024 MB。 |
组件输出
回归指标输出表的结果为JSON格式,包括以下参数:
参数 | 描述 |
SST | 总平方和 |
SSE | 误差平方和 |
SSR | 回归平方和 |
R2 | 判定系数 |
R | 多重相关系数 |
MSE | 均方误差 |
RMSE | 均方根误差 |
MAE | 平均绝对误差 |
MAD | 平均绝对偏差 |
MAPE | 平均绝对百分误差 |
count | 行数 |
yMean | 原始因变量的均值 |
predictionMean | 预测结果的均值 |