增加序号列是一种用于数据表处理的算法组件,旨在为数据表添加一个序号列。该组件在数据表的第一列插入一个唯一的ID列,为每一行分配一个序号,以便于数据的标识和管理。
算法说明
支持1000000000*1023的算法规模。
配置组件
方式一:可视化方式
在Designer工作流页面添加增加序号列组件,并在界面右侧配置相关参数:
参数类型  | 参数  | 描述  | 
参数设置  | 默认全选  | 默认全选,多余列不影响预测结果。  | 
序列号  | 默认为append_id。  | |
执行调优  | 计算核心数  | 核心数量。  | 
每个核内存数  | 单个核心使用的内存数,单位为MB,取值范围为(1, 65536)。  | 
方式二:PAI命令方式
使用PAI命令配置增加序号列组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;参数  | 是否必选  | 默认值  | 参数描述  | 
inputTableName  | 是  | 无  | 输入表的表名。  | 
selectedColNames  | 否  | 所有列  | 输入表中,参与训练的列。列名以英文逗号(,)分隔,支持INT和DOUBLE类型。如果输入为稀疏格式,则支持STRING类型的列。  | 
inputTablePartitions  | 否  | 所有分区  | 输入表中,参与训练的分区。支持以下格式: 
 说明  如果指定多个分区,则使用英文逗号(,)分隔。  | 
outputTableName  | 是  | 无  | 输出结果表。  | 
IDColName  | 否  | append_id  | ID列列名。  | 
lifecycle  | 否  | 无  | 输出表生命周期。  | 
coreNum  | 否  | 系统自动分配  | 核心数量。  | 
memSizePerCore  | 否  | 系统自动分配  | 单个核心使用的内存数,单位为MB,取值范围为(1, 65536)。  | 
示例
PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;数据生成
col0
col1
col2
col3
col4
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
输出表
append_id
col0
col1
col2
col3
col4
0
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
1
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
2
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
3
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
4
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true