配置增加序号列组件为数据表添加序号列-人工智能平台 PAI-阿里云

增加序号列是一种用于数据表处理的算法组件，旨在为数据表添加一个序号列。该组件在数据表的第一列插入一个唯一的ID列，为每一行分配一个序号，以便于数据的标识和管理。

算法说明

支持1000000000*1023的算法规模。

配置组件

方式一：可视化方式

在Designer工作流页面添加增加序号列组件，并在界面右侧配置相关参数：

参数类型	参数	描述
参数设置	默认全选	默认全选，多余列不影响预测结果。
参数设置	序列号	默认为append_id。
执行调优	计算核心数	核心数量。
执行调优	每个核内存数	单个核心使用的内存数，单位为MB，取值范围为(1, 65536)。

方式二：PAI命令方式

使用PAI命令配置增加序号列组件参数。您可以使用SQL脚本组件进行PAI命令调用，详情请参见SQL脚本。

PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;

参数	是否必选	默认值	参数描述
inputTableName	是	无	输入表的表名。
selectedColNames	否	所有列	输入表中，参与训练的列。列名以英文逗号（,）分隔，支持INT和DOUBLE类型。如果输入为稀疏格式，则支持STRING类型的列。
inputTablePartitions	否	所有分区	输入表中，参与训练的分区。支持以下格式： Partition_name=value name1=value1/name2=value2：多级格式说明如果指定多个分区，则使用英文逗号（,）分隔。
outputTableName	是	无	输出结果表。
IDColName	否	append_id	ID列列名。
lifecycle	否	无	输出表生命周期。
coreNum	否	系统自动分配	核心数量。
memSizePerCore	否	系统自动分配	单个核心使用的内存数，单位为MB，取值范围为(1, 65536)。

示例

PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;

数据生成

col0	col1	col2	col3	col4
10	0.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
11	1.0	aaaa	Thu Oct 01 00:00:00 CST 2015	false
12	2.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
13	3.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
14	4.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true

输出表

append_id	col0	col1	col2	col3	col4
0	10	0.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
1	11	1.0	aaaa	Thu Oct 01 00:00:00 CST 2015	false
2	12	2.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
3	13	3.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true
4	14	4.0	aaaa	Thu Oct 01 00:00:00 CST 2015	true