增加序号列是一种用于数据表处理的算法组件,旨在为数据表添加一个序号列。该组件在数据表的第一列插入一个唯一的ID列,为每一行分配一个序号,以便于数据的标识和管理。
算法说明
支持1000000000*1023的算法规模。
配置组件
方式一:可视化方式
在Designer工作流页面添加增加序号列组件,并在界面右侧配置相关参数:
参数类型 | 参数 | 描述 |
参数设置 | 默认全选 | 默认全选,多余列不影响预测结果。 |
序列号 | 默认为append_id。 | |
执行调优 | 计算核心数 | 核心数量。 |
每个核内存数 | 单个核心使用的内存数,单位为MB,取值范围为(1, 65536)。 |
方式二:PAI命令方式
使用PAI命令配置增加序号列组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本。
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;
参数 | 是否必选 | 默认值 | 参数描述 |
inputTableName | 是 | 无 | 输入表的表名。 |
selectedColNames | 否 | 所有列 | 输入表中,参与训练的列。列名以英文逗号(,)分隔,支持INT和DOUBLE类型。如果输入为稀疏格式,则支持STRING类型的列。 |
inputTablePartitions | 否 | 所有分区 | 输入表中,参与训练的分区。支持以下格式:
说明 如果指定多个分区,则使用英文逗号(,)分隔。 |
outputTableName | 是 | 无 | 输出结果表。 |
IDColName | 否 | append_id | ID列列名。 |
lifecycle | 否 | 无 | 输出表生命周期。 |
coreNum | 否 | 系统自动分配 | 核心数量。 |
memSizePerCore | 否 | 系统自动分配 | 单个核心使用的内存数,单位为MB,取值范围为(1, 65536)。 |
示例
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;
数据生成
col0
col1
col2
col3
col4
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
输出表
append_id
col0
col1
col2
col3
col4
0
10
0.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
1
11
1.0
aaaa
Thu Oct 01 00:00:00 CST 2015
false
2
12
2.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
3
13
3.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true
4
14
4.0
aaaa
Thu Oct 01 00:00:00 CST 2015
true