如何使用线性回归组件_隐私增强计算(DataTrust)-阿里云帮助中心

一、组件说明

线性回归模型通过找到一条最佳拟合直线（或超平面），将输入特征映射到一个连续数值输出。在模型训练过程中，采用最小二乘法（least squares）估计模型参数，即最小化输出结果与预测值之间的误差平方和。

线性回归模型具有简单、易于理解和解释的特点，同时可以通过多项式扩展等方法处理非线性数据，具有较高的泛化能力和预测准确率。但是，线性回归模型对于离群点、噪声数据和非线性关系的数据比较敏感，需要进行特征标准化和正则化处理。

组件截图

二、参数说明

字段设置

参数名称	参数说明
标签字段	用于训练的标签字段，数值类型，单选。
特征字段	用于预测的特征字段，数值类型，多选。注意：正常情况下请检查，在特征字段中不要勾选标签字段。
输入特征为KV格式	目前DataTrust支持KV格式的特征输入（即LIBSVM格式）。使用时，数据格式如下，其中key的下标应从1开始，value应均为数值：

参数设置

参数名称	参数英文名称	参数说明
批处理大小	batch_size	每个小批次的样本数量。batch_size的大小会影响模型的训练速度和泛化能力，通常情况下，较小的batch_size可以更快地收敛，但可能会导致模型过拟合；较大的batch_size会更稳定，但收敛速度较慢。
最大迭代轮数	max_epoch	模型样本的最大迭代次数。
学习率	learning_rate	学习率，控制每轮迭代权重的缩小程度，适当调整可以加速模型收敛但也可能使模型过拟合。
最小损失	min_child_weight	训练到这个loss后，将提前停止。
权重衰减项	weight_decay	值越大，衰减越大，取值为[0, 1)之间的浮点数。
正则化项	penalty	权重衰减项为L1正则或L2正则。

安全设置

在联邦学习中，线性回归会通过半同态加密的方式保护各自数据的隐私。

参数名称	参数说明
半同态加密算法	可选Paillier或Okamoto-Uchiyama两种加密算法制式。
加密算法安全强度	强度越高越安全，但是相应的，计算时间越长。实践中推荐使用40bit的加密算法安全强度。

训练成功后的模型保存

训练成功后，模型将依据联邦建模双方的特征，分片保存在各自的平台上。训练成功的模型保存在【项目台】-【模型管理】-【模型文件】中，保存名称为${工作流名称}_${建模组件名称}。例如，本项目中有成功建模的任务名为“xgb_criteo_10w”，其中有建模组件名字为“线性回归”，则模型名字为“xgb_criteo_10w_线性回归”，如下图所示：