文档

增加序号列

更新时间:

本文为您介绍Designer提供的增加序号列组件。您可以在数据表的第一列追加ID列。

背景信息

支持1000000000*1023的算法规模。

组件配置

您可以使用以下任意一种方式,配置增加序号列组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

参数设置

默认全选

默认全选,多余列不影响预测结果。

序列号

默认为append_id。

执行调优

计算核心数

核心数量。

每个核内存数

单个核心使用的内存数,单位为MB,取值范围为(1, 65536)

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;

参数名称

是否必选

参数描述

默认值

inputTableName

输入表的表名。

selectedColNames

输入表中,参与训练的列。列名以英文逗号(,)分隔,支持INT和DOUBLE类型。如果输入为稀疏格式,则支持STRING类型的列。

所有列

inputTablePartitions

输入表中,参与训练的分区。支持以下格式:

  • Partition_name=value

  • name1=value1/name2=value2:多级格式

说明

如果指定多个分区,则使用英文逗号(,)分隔。

所有分区

outputTableName

输出结果表。

IDColName

ID列列名。

append_id

lifecycle

输出表生命周期。

coreNum

核心数量。

系统自动分配

memSizePerCore

单个核心使用的内存数,单位为MB,取值范围为(1, 65536)

系统自动分配

示例

PAI -name AppendId
    -project algo_public
    -DinputTableName=maple_test_appendid_basic_input
    -DoutputTableName=maple_test_appendid_basic_output;
  • 数据生成

    col0

    col1

    col2

    col3

    col4

    10

    0.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    11

    1.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    false

    12

    2.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    13

    3.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    14

    4.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

  • 输出表

    append_id

    col0

    col1

    col2

    col3

    col4

    0

    10

    0.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    1

    11

    1.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    false

    2

    12

    2.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    3

    13

    3.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

    4

    14

    4.0

    aaaa

    Thu Oct 01 00:00:00 CST 2015

    true

  • 本页导读 (1)