本文为您介绍PAI-Studio提供的拆分算法。拆分是对数据进行随机拆分,用于生成训练和测试集。

拆分

PAI-Studio支持通过可视化或PAI命令的方式,配置该组件参数:
  • 可视化方式
    页签 参数 描述
    参数设置 拆分方式
    • 按比例拆分
    • 按阈值拆分
    切分比例 取值范围为(0,1)
    随机数种子 系统默认生成。
    ID列(ID列相同的不会被拆分) ID列。
    说明 勾选高级选项时展示。
    阈值列 阈值所在列名,不支持String列。
    阈值 需要删除切分比例中的数据。
    执行调优 计算核心数 系统根据输入数据量,自动分配训练的实例数量。
    每个核内存数 系统根据输入数据量,自动分配内存。单位为MB。
  • PAI命令方式
    PAI -name split -project algo_public
        -DinputTableName=wbpc
        -Doutput1TableName=wpbc_split1
        -Doutput2TableName=wpbc_split2
        -Dfraction=0.25;
    参数名称 是否必选 参数描述 默认值
    inputTableName 输入表的表名。
    inputTablePartitions 输入表中,参与训练的分区。支持以下格式:
    • Partition_name=value
    • name1=value1/name2=value2:多级格式
    说明 如果指定多个分区,则使用英文逗号(,)分隔。
    所有分区
    output1TableName 输出结果表1。
    output1TablePartition 输出结果表1分区名。 输出表1为非分区表
    output2TableName 输出结果表2。
    output2TablePartition 输出结果表2分区名。 输出表2为非分区表
    fraction 切分至输出表1的数据比例,取值范围为(0,1)
    randomSeed 随机数种子,取值范围为正整数。 系统自动分配
    idColName ID列(ID相同的数据不会被拆分)
    thresholdColName 阈值所在列名,不支持String列。
    threshold 阈值。
    lifecycle 输出表的生命周期,取值范围为[1,3650]
    coreNum 核心数量。 系统自动分配
    memSizePerCore 每个核心的内存(单位是兆),取值范围为(1, 65536) 系统自动分配