增加序号列

增加序号列是一种用于数据表处理的算法组件,旨在为数据表添加一个序号列。该组件在数据表的第一列插入一个唯一的ID列,为每一行分配一个序号,以便于数据的标识和管理。

算法说明

支持1000000000*1023的算法规模。

配置组件

方式一:可视化方式

Designer工作流页面添加增加序号列组件,并在界面右侧配置相关参数:

参数类型

参数

描述

参数设置

默认全选

默认全选,多余列不影响预测结果。

序列号

默认为append_id。

执行调优

计算核心数

核心数量。

每个核内存数

单个核心使用的内存数,单位为MB,取值范围为(1, 65536)

方式二:PAI命令方式

使用PAI命令配置增加序号列组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;

参数

是否必选

默认值

参数描述

inputTableName

输入表的表名。

selectedColNames

所有列

输入表中,参与训练的列。列名以英文逗号(,)分隔,支持INTDOUBLE类型。如果输入为稀疏格式,则支持STRING类型的列。

inputTablePartitions

所有分区

输入表中,参与训练的分区。支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多级格式

说明

如果指定多个分区,则使用英文逗号(,)分隔。

outputTableName

输出结果表。

IDColName

append_id

ID列列名。

lifecycle

输出表生命周期。

coreNum

系统自动分配

核心数量。

memSizePerCore

系统自动分配

单个核心使用的内存数,单位为MB,取值范围为(1, 65536)

示例

PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;
  • 数据生成

    col0

    col1

    col2

    col3

    col4

    10

    0.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    11

    1.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    false

    12

    2.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    13

    3.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    14

    4.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

  • 输出表

    append_id

    col0

    col1

    col2

    col3

    col4

    0

    10

    0.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    1

    11

    1.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    false

    2

    12

    2.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    3

    13

    3.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    4

    14

    4.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true