线性回归

更新时间:2023-11-03 02:53:29

一、组件说明

线性回归模型通过找到一条最佳拟合直线(或超平面),将输入特征映射到一个连续数值输出。在模型训练过程中,采用最小二乘法(least squares)估计模型参数,即最小化输出结果与预测值之间的误差平方和。

线性回归模型具有简单、易于理解和解释的特点,同时可以通过多项式扩展等方法处理非线性数据,具有较高的泛化能力和预测准确率。但是,线性回归模型对于离群点、噪声数据和非线性关系的数据比较敏感,需要进行特征标准化和正则化处理。

组件截图

image.png

二、参数说明

字段设置

参数名称

参数说明

标签字段

用于训练的标签字段,数值类型,单选。

特征字段

用于预测的特征字段,数值类型,多选。注意:正常情况下请检查,在特征字段中不要勾选标签字段。

输入特征为KV格式

目前DataTrust支持KV格式的特征输入(即LIBSVM格式)。使用时,数据格式如下,其中key的下标应从1开始,value应均为数值:

image.png

参数设置

参数名称

参数英文名称

参数说明

批处理大小

batch_size

每个小批次的样本数量。batch_size的大小会影响模型的训练速度和泛化能力,通常情况下,较小的batch_size可以更快地收敛,但可能会导致模型过拟合;较大的batch_size会更稳定,但收敛速度较慢。

最大迭代轮数

max_epoch

模型样本的最大迭代次数。

学习率

learning_rate

学习率,控制每轮迭代权重的缩小程度,适当调整可以加速模型收敛但也可能使模型过拟合。

最小损失

min_child_weight

训练到这个loss后,将提前停止。

权重衰减项

weight_decay

值越大,衰减越大,取值为[0, 1)之间的浮点数。

正则化项

penalty

权重衰减项为L1正则或L2正则。

安全设置

在联邦学习中,线性回归会通过半同态加密的方式保护各自数据的隐私。

参数名称

参数说明

半同态加密算法

可选PaillierOkamoto-Uchiyama两种加密算法制式。

加密算法安全强度

强度越高越安全,但是相应的,计算时间越长。实践中推荐使用40bit的加密算法安全强度。

训练成功后的模型保存

训练成功后,模型将依据联邦建模双方的特征,分片保存在各自的平台上。训练成功的模型保存在【项目台】-【模型管理】-【模型文件】中,保存名称为${工作流名称}_${建模组件名称}。例如,本项目中有成功建模的任务名为“xgb_criteo_10w”,其中有建模组件名字为“线性回归”,则模型名字为“xgb_criteo_10w_线性回归”,如下图所示:

image.png

  • 本页导读 (0)
  • 一、组件说明
  • 组件截图
  • 二、参数说明
  • 字段设置
  • 参数设置
  • 安全设置
  • 训练成功后的模型保存
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等