MLP二分类/MLP多分类/MLP回归
一、组件说明
MLP二分类是指使用多层感知机(Multi-Layer Perceptron)进行二元分类问题的解决。多层感知机是一种前馈神经网络,通过多个神经元的组合对输入特征进行非线性变换和特征提取,最终输出一个连续的预测结果。
在训练过程中,利用反向传播算法(Backpropagation)和梯度下降算法(Gradient Descent)来优化模型参数,以最小化训练集中样本类别之间的差异性。
在二分类问题中,多层感知机将输入特征映射到一个二元分类输出,即预测样本属于正例或负例的概率。
组件截图
二、参数说明
字段设置
参数名称 | 参数说明 |
标签字段 | 用于训练的标签字段,数值类型,单选。 |
特征字段 | 用于预测的特征字段,数值类型,多选。注意:正常情况下请检查,在特征字段中不要勾选标签字段。 |
输入特征为KV格式 | 目前DataTrust支持KV格式的特征输入(即LIBSVM格式)。使用时,数据格式如下,其中key的下标应从1开始,value应均为数值: |
模型结构概况
参数设置
参数名称 | 参数英文名称 | 参数说明 |
学习率 | learning_rate | 用于训练的标签字段,数值类型,单选。 |
批处理大小 | batch_size | 每个小批次的样本数量。batch_size的大小会影响模型的训练速度和泛化能力,通常情况下,较小的batch_size可以更快地收敛,但可能会导致模型过拟合;较大的batch_size会更稳定,但收敛速度较慢。 |
迭代轮数 | epochs | 模型样本的迭代次数。 |
融合模型参数-各隐藏层节点数 | hidden_layers | 数组输入,例如希望有三层,每层的宽度分别为64、32、32,则输入[64,32,32],注意分隔符均为半角字符。 |
使用方模型参数-各隐藏层节点数 | host_hidden_layers | 数组输入,例如希望有三层,每层的宽度分别为64、32、32,则输入[64,32,32],注意分隔符均为半角字符。 |
使用方模型参数-输出节点数 | host_out_num | host_output_layer的输出宽度,正整数值。 |
使用方模型参数-差分噪声 | host_sigma | 浮点数,数值越小,则噪音越小。 |
加持方模型参数-各隐藏层节点数 | slave_hidden_layers | 数组输入,例如希望有三层,每层的宽度分别为64、32、32,则输入[64,32,32],注意分隔符均为半角字符。 |
加持方模型参数-输出节点数 | slave_out_num | host_output_layer的输出宽度,正整数值。 |
加持方模型参数-差分噪声 | slave_sigma | 浮点数,数值越小,则噪音越小。 |
训练成功后的模型保存
训练成功后,模型将依据联邦建模双方的特征,分片保存在各自的平台上。训练成功的模型保存在【项目台】-【模型管理】-【模型文件】中,保存名称为${工作流名称}_${建模组件名称}。例如,本项目中有成功建模的任务名为“xgb_criteo_10w”,其中有建模组件名字为“MLP二分类”,则模型名字为“xgb_criteo_10w_MLP二分类”,如下图所示: