本文为您介绍PAI-Studio提供的增加序号列组件。您可以在数据表的第一列追加ID列。

背景信息

支持1000000000*1023的算法规模。

增加序号列

PAI-Studio支持通过可视化或PAI命令的方式,配置该组件参数:
  • 可视化方式
    页签 参数 描述
    参数设置 默认全选 默认全选,多余列不影响预测结果。
    序列号 默认为append_id。
    执行调优 计算核心数
    每个核内存数
  • PAI命令方式
    PAI -name AppendId
        -project algo_public
        -DinputTableName=maple_test_appendid_basic_input
        -DoutputTableName=maple_test_appendid_basic_output;
    参数名称 是否必选 参数描述 默认值
    inputTableName 输入表的表名。
    selectedColNames 输入表中,参与训练的列。列名以英文逗号(,)分隔,支持INT和DOUBLE类型。如果输入为稀疏格式,则支持STRING类型的列。 所有列
    inputTablePartitions 输入表中,参与训练的分区。支持以下格式:
    • Partition_name=value
    • name1=value1/name2=value2:多级格式
    说明 如果指定多个分区,则使用英文逗号(,)分隔。
    所有分区
    outputTableName 输出结果表。
    IDColName ID列列名。 append_id
    lifecycle 输出表生命周期。
    coreNum 核心数量。 系统自动分配
    memSizePerCore 单个核心使用的内存数。 系统自动分配

增加序列号示例

PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;
  • 数据生成
    col0 col1 col2 col3 col4
    10 0.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    11 1.0 aaaa Thu Oct 01 00:00:00 CST 2015 false
    12 2.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    13 3.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    14 4.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
  • 输出表
    append_id col0 col1 col2 col3 col4
    0 10 0.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    1 11 1.0 aaaa Thu Oct 01 00:00:00 CST 2015 false
    2 12 2.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    3 13 3.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    4 14 4.0 aaaa Thu Oct 01 00:00:00 CST 2015 true