数据集拆分

更新时间:

本文介绍了将数据集拆分为训练数据集和预测数据集的 API 及示例。

函数路径

fascia.data.horizontal.dataframe.train_test_split

函数定义

def train_test_split(data: HDataFrame, 
                     ratio: float, 
                     random_state: int = None, 
                     shuffle: bool = True) -> (HDataFrame, HDataFrame):

参数

参数

类型

描述

data

HDataFrame

待拆分的联邦数据集。

ratio

Float

拆分比例,取值范围为 0~1,可精确到千分之一。

random_state

Integer

随机数种子。若指定,则相同种子的拆分结果固定。默认为 None。

shuffle

Bool

是否重排序。默认为 True。

示例

from fascia.data.horizontal.dataframe import train_test_split
#对已有的联邦数据集进行拆分并分别保存
#假设fed_df是已经创建好的联邦数据集
train_set, test_set = train_test_split(fed_df, 0.7) 
save_fed_dataframe(train_set, '$output1')
save_fed_dataframe(test_set, '$output2')

返回值定义

返回内容为 2 个联邦表构成的元组。