创建安全联邦学习任务(任务模式)

更新时间:

场景描述

A有一张数据表demo_fl_alice_train_original用于记录人群属性(学历、工作经历等),标签是income;B有一张数据表demo_fl_bob_train_original用于记录人群属性(关系、民族等)。

需求是A想联合B数据,使用XGB,进行联合建模。可通过创建TrustML/Training任务实现。

步骤一:新建TrustML/Training任务

  1. 在DataTrust首页,单击顶部菜单栏的通用计算。进入任务研发页面。

  2. 在通用方案中,选择创建安全联邦学习(任务模式)任务。

image.png
  1. 在创建任务页面中,任务类型选择TrustML/Training任务。

image.png

步骤二:配置任务参数信息

  1. 创建任务页面,配置基础信息参数。

image.png

参数

描述

任务名称

请填写任务的名称。

运行方式

指使用哪一种技术方式实现,目前支持安全多方联邦学习两种。

调度规则

支持日常不调度按日调度按周调度按月调度四种,配置后会按配置的周期定时跑该任务。

  • 日常不调度:配置后不运行任务。

  • 按日调度:每天运行任务。

  • 按周调度:每周运行任务。

  • 按月调度:每月运行任务。

训练类型

仅支持特征切分。

  • 特征切分(纵向切分):指两边数据特征不一样,特征分在了两边。

  • 数据切分(横向切分):指两边数据结构一致,只是拥有的数据。

特征分布

支持使用方【X1+Y】+加持方【X2】和使用方【Y】+加持方【X2】。

  • 使用方【X1+Y】+加持方【X2】:指两方都拥有一部分特征数据,其中使用方拥有标签数据。

  • 使用方【Y】+加持方【X2】:指使用方拥有特征数据,加持方拥有特征数据。

数据格式

支持普通格式和KV格式。

  • 普通格式:表明数据没有事先进行数据特征数值化处理,适用字段特征个数较少情况

  • KV格式:所有列均为string类型。features列格式为key:value keyN:valueN键值对组合,空格分割。适用特征维度特别多,特别是神经网络算法。

数据集设置

配置使用方和加持方的数据信息,用于后续的数据处理。

  • 使用方:指需要数据的一方。

  • 加持方:指提供数据的一方。

  • 训练集:需训练的数据表。

  • Label字段:指标签字段,用于后续训练学习。

  • 对齐字段:指双方数据集,用于碰撞匹配的字段。

  • 数据分区:分区分为动态分区和静态分区,动态分区按照日、小时调度。

  • 特征数:请输入数据的特征指数。

  • 数据集比例划分:用于按比例随机划分训练集和测试集。

  1. 单击下一步,配置数据处理参数。

参数

描述

算法分类

支持的算法分类为FL决策树、FL线性回归、FL逻辑回归、FL深度学习。

  • FL决策树支持的算法为XGBoostWithDp:Decision_Tree,用于二分类、多分类、回归。

  • FL线性回归支持的算法为LinearRegressionWithHe:Linear_Regression_With_He,用于回归。

  • FL逻辑回归支持的算法为LogisticRegressionWithHe:Logistic_Regression_HeLogisticRegressionWithMpc:Logistic_Regression_Mpc,用于二分类。

  • FL深度学习支持的算法为Mlp:多层感知机WideDeep:Wide&DeepDeepFM:DeepFM,用于二分类、多分类、回归。

默认参数

根据所选的算法分类及算法为您展示模型参数。

高级参数

您可点击配置参数,添加高级参数。

  1. 单击下一步,配置特征分析。任务基础设置中配置的数据集或勾选的字段变更后,列表中不存在的表或字段在提交时会自动删除。点击使用默认配置可实现一键配置。

参数

描述

参与方/数据表名

请输入参与方的数据表。

字段类型

对齐字段和Label字段不支持数据处理。

处理类型

支持数据归一化、数据分箱、数据编码三种方式。

  • 数据归一化:仅支持用于数值类型。包括Min-Max极差变换法Z-Score归一化。

  • 数据分箱:仅支持用于数值类型。包括等频分箱、等距分箱、卡方分箱。

    • 处理类型选择分箱处理后,则不能再选择其他处理类型。

    • 每个字段只能选择一种分箱处理。

  • 数据编码:仅支持用于字符类型。包括One-hot编码、Binary编码、WOE编码。

  1. 单击提交,完成任务的创建。

步骤三:新建TrustML/Prediction任务

  1. 在DataTrust首页,单击顶部菜单栏的工作台。进入任务研发页面。

  2. 在通用方案中,选择创建安全联邦学习(任务模式)任务。

image.png
  1. 在创建任务页面中,任务类型选择TrustML/Prediction任务。

image.png

步骤四:配置任务参数信息

  1. 创建任务页面,配置基础信息参数。如果运行方式为可行执行环境,则必须在当前合作空间中创建好表;如果是联邦学习、安全多方,则在LSCC侧创建好表。表字段为:id,predict_result,均为字符串类型。

image.png

参数

描述

任务名称

请填写任务的名称。

运行方式

指使用哪一种技术方式实现,目前支持安全多方联邦学习两种。

任务类型

任务类型默认是TrustML/Prediction,不支持修改。

调度规则

支持日常不调度按日调度按周调度按月调度四种,配置后会按配置的周期定时跑该任务。

  • 日常不调度:配置后不运行任务。

  • 按日调度:每天运行任务。

  • 按周调度:每周运行任务。

  • 按月调度:每月运行任务。

依赖模型

指训练任务生成的模型。

模型版本

指在训练任务中会生成多个模型版本,需要选定一个模型版本进行模型效果评估。

训练模型

仅支持特征切分。特征切分(纵向切分):指两边数据特征不一样,特征分在了两边。数据切分(横向切分):指两边数据结构一致,只是拥有的数据。

特征分布

支持使用方【X1+Y】+加持方【X2】和使用方【Y】+加持方【X2】。

  • 使用方【X1+Y】+加持方【X2】:指两方都拥有一部分特征数据,其中使用方拥有标签数据。

  • 使用方【Y】+加持方【X2】:指使用方拥有特征数据,加持方拥有特征数据。

数据格式

支持普通格式和KV格式。

  • 普通格式:表明数据没有事先进行数据特征数值化处理,适用字段特征个数较少情况

  • KV格式:所有列均为string类型。features列格式为key:value keyN:valueN键值对组合,空格分割。适用特征维度特别多,特别是神经网络算法。

预测数据集

配置使用方和加持方的数据信息,用于后续的数据处理。

  • 使用方:指数据需求方。

  • 加持方:指数据支持方。

  • 数据名称:选择已创建的数据,如需创建,请参见上传数据。

  • 对齐字段:指双方数据集,用于碰撞匹配的字段。

  • 数据分区:分区分为动态分区和静态分区,动态分区按照日、小时调度。

结果输出给

可选择输出给使用方或加持方任何一方。

预测结果表

选择已创建好的输出结果表。预测任务结果,在预测结果输出表中查看。

预测值模型

仅对二分类有效。

  • 枚举值:即直接给出判断结果,支持自定义阈值,可不填。

  • Score:输出预测评分。

  1. 单击下一步,配置数据处理参数。

参数

描述

算法分类

支持的算法分类为FL决策树、FL线性回归、FL逻辑回归、FL深度学习。

  • FL决策树支持的算法为XGBoostWithDp:Decision_Tree,用于二分类、多分类、回归。

  • FL线性回归支持的算法为LinearRegressionWithHe:Linear_Regression_With_He,用于回归。

  • FL逻辑回归支持的算法为LogisticRegressionWithHe:Logistic_Regression_HeLogisticRegressionWithMpc:Logistic_Regression_Mpc,用于二分类。

  • FL深度学习支持的算法为Mlp:多层感知机WideDeep:Wide&DeepDeepFM:DeepFM,用于二分类、多分类、回归。

默认参数

根据所选的算法分类及算法为您展示模型参数。

高级参数

您可以点击配置参数,添加高级参数。

  1. 单击提交,完成任务的创建。

后续步骤

  • 任务创建完成后,您可在任务列表页面对任务执行查看、编辑、运行等操作。详情请参见任务管理。

  • 任务创建完成后,您可在模型管理中查看特征分析结果。详情请参见模型管理。