本文为您介绍PAI-Studio提供的增加序号列组件。您可以在数据表的第一列追加ID列。
背景信息
支持1000000000*1023的算法规模。
增加序号列
PAI-Studio支持通过可视化或PAI命令的方式,配置该组件参数:
- 可视化方式
页签 参数 描述 参数设置 默认全选 默认全选,多余列不影响预测结果。 序列号 默认为append_id。 执行调优 计算核心数 每个核内存数 - PAI命令方式
PAI -name AppendId -project algo_public -DinputTableName=maple_test_appendid_basic_input -DoutputTableName=maple_test_appendid_basic_output;
参数名称 是否必选 参数描述 默认值 inputTableName 是 输入表的表名。 无 selectedColNames 否 输入表中,参与训练的列。列名以英文逗号(,)分隔,支持INT和DOUBLE类型。如果输入为稀疏格式,则支持STRING类型的列。 所有列 inputTablePartitions 否 输入表中,参与训练的分区。支持以下格式: - Partition_name=value
- name1=value1/name2=value2:多级格式
说明 如果指定多个分区,则使用英文逗号(,)分隔。所有分区 outputTableName 是 输出结果表。 无 IDColName 否 ID列列名。 append_id lifecycle 否 输出表生命周期。 无 coreNum 否 核心数量。 系统自动分配 memSizePerCore 否 单个核心使用的内存数。 系统自动分配
增加序列号示例
PAI -name AppendId
-project algo_public
-DinputTableName=maple_test_appendid_basic_input
-DoutputTableName=maple_test_appendid_basic_output;
- 数据生成
col0 col1 col2 col3 col4 10 0.0 aaaa Thu Oct 01 00:00:00 CST 2015 true 11 1.0 aaaa Thu Oct 01 00:00:00 CST 2015 false 12 2.0 aaaa Thu Oct 01 00:00:00 CST 2015 true 13 3.0 aaaa Thu Oct 01 00:00:00 CST 2015 true 14 4.0 aaaa Thu Oct 01 00:00:00 CST 2015 true - 输出表
append_id col0 col1 col2 col3 col4 0 10 0.0 aaaa Thu Oct 01 00:00:00 CST 2015 true 1 11 1.0 aaaa Thu Oct 01 00:00:00 CST 2015 false 2 12 2.0 aaaa Thu Oct 01 00:00:00 CST 2015 true 3 13 3.0 aaaa Thu Oct 01 00:00:00 CST 2015 true 4 14 4.0 aaaa Thu Oct 01 00:00:00 CST 2015 true
在文档使用中是否遇到以下问题
更多建议
匿名提交