数据拆分
更新时间:
一、组件说明
在联邦学习任务中,数据拆分是将一份原始数据集分成训练集和测试集两个部分的过程。拆分数据集的目的是为了在训练模型时能够使用独立的数据集来评估模型的性能和泛化能力。
训练集是模型用来学习的数据集,可以用于训练模型并优化模型的参数。测试集是模型未见过的数据集,用于评估模型的性能和泛化能力。测试集的数据应该来自于相同的数据分布,并且应该是独立于训练集的。
数据拆分可以通过随机抽样或按照一定比例划分的方法进行。常用的数据拆分比例是将数据集按照 80% 训练集和 20% 测试集的比例进行拆分。
组件截图
二、参数说明
参数名称 | 参数说明 |
拆分比例 | 选择数据集1的比例,剩余部分为数据集2。比例取值为[0, 1]的浮点数。被拆分数据集数量不能过小,至少大于10,否则可能会导致拆分数据集数据量为0。 |
是否使用随机拆分 | 如果选择是,则拆分的时候为随机选择;如果选择否,则拆分为两部分,【拆分比例】对应的数据集1,【1-拆分比例】对应的数据集2。 |
随机数种子 | 随机拆分的方式为伪随机,随机数种子可以控制同一个数据集中,随机选择的数据都是同样的划分方式。 |
文档内容是否对您有帮助?