本文为您介绍PAI-Designer(原PAI-Studio)提供的增加序号列组件。您可以在数据表的第一列追加ID列。

背景信息

支持1000000000*1023的算法规模。

组件配置

您可以使用以下任意一种方式,配置增加序号列组件参数。

方式一:可视化方式

在PAI-Designer(原PAI-Studio)工作流页面配置组件参数。
页签 参数 描述
参数设置 默认全选 默认全选,多余列不影响预测结果。
序列号 默认为append_id。
执行调优 计算核心数
每个核内存数

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本
PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;
参数名称 是否必选 参数描述 默认值
inputTableName 输入表的表名。
selectedColNames 输入表中,参与训练的列。列名以英文逗号(,)分隔,支持INT和DOUBLE类型。如果输入为稀疏格式,则支持STRING类型的列。 所有列
inputTablePartitions 输入表中,参与训练的分区。支持以下格式:
  • Partition_name=value
  • name1=value1/name2=value2:多级格式
说明 如果指定多个分区,则使用英文逗号(,)分隔。
所有分区
outputTableName 输出结果表。
IDColName ID列列名。 append_id
lifecycle 输出表生命周期。
coreNum 核心数量。 系统自动分配
memSizePerCore 单个核心使用的内存数。 系统自动分配

示例

PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;
  • 数据生成
    col0 col1 col2 col3 col4
    10 0.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    11 1.0 aaaa Thu Oct 01 00:00:00 CST 2015 false
    12 2.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    13 3.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    14 4.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
  • 输出表
    append_id col0 col1 col2 col3 col4
    0 10 0.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    1 11 1.0 aaaa Thu Oct 01 00:00:00 CST 2015 false
    2 12 2.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    3 13 3.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
    4 14 4.0 aaaa Thu Oct 01 00:00:00 CST 2015 true