本文为您介绍PAI-Studio提供的预测算法。
预测
通常,传统的数据挖掘算法都可以使用预测组件进行模型预测。该组件的输入为训练模型和预测数据,输出为预测结果。
PAI-Studio支持通过可视化或PAI命令的方式,配置该组件参数:
- 可视化方式
页签 参数 描述 字段设置 特征列 参与预测的特征列,默认选择所有列。 原样输出列 建议添加标签列,便于评估。 输出结果列名 输出表的结果列。 输出分数列名 输出i表的分数列。 输出详细列名 输出表的详细列。 稀疏矩阵 使用KV格式表示稀疏数据。 key与value分隔符 默认为英文冒号(:)。 kv对间的分隔符 默认为英文逗号(,)。 执行调优 核心数 与参数每个核的内存大小搭配使用,取值范围为正整数。 每个核的内存大小 与参数核心数搭配使用,单位为MB。 - PAI命令方式
pai -name prediction -DmodelName=nb_model -DinputTableName=wpbc -DoutputTableName=wpbc_pred -DappendColNames=label;
参数 是否必选 描述 默认值 inputTableName 是 输入表的名称。 无 featureColNames 否 输入表中,参与预测的特征列,多个列以英文逗号(,)分隔。 所有列 appendColNames 否 输入表中,附加至输出表的预测列。 无 inputTablePartitions 否 输入表中,参与训练的分区。支持以下格式: - Partition_name=value
- name1=value1/name2=value2:多级格式
说明 如果指定多个分区,则使用英文逗号(,)分隔。全表 outputTablePartition 否 结果输出至输出表的分区。 无 resultColName 否 输出表的结果列。 prediction_result scoreColName 否 输出表的分数列。 prediction_score detailColName 否 输出表的详细列。 prediction_detail enableSparse 否 输入数据是否为稀疏格式,取值范围为{true,false}。 false itemDelimiter 否 稀疏格式KV对之间的分隔符。 英文逗号(,) kvDelimiter 否 稀疏格式key和value之间的分隔符。 英文冒号(;) modelName 是 输入的聚类模型。 无 outputTableName 是 输出表。 无 lifecycle 否 输出表的生命周期。 无 coreNum 否 节点个数。 系统自动分配 memSizePerCore 否 每个节点的内存,单位为MB。 系统自动分配
预测示例
- 使用SQL语句,生成测试数据。
create table pai_rf_test_input as select * from ( select 1 as f0,2 as f1, "good" as class from dual union all select 1 as f0,3 as f1, "good" as class from dual union all select 1 as f0,4 as f1, "bad" as class from dual union all select 0 as f0,3 as f1, "good" as class from dual union all select 0 as f0,4 as f1, "bad" as class from dual )tmp;
- 使用PAI命令,构建模型(以随机森林算法为例)。
PAI -name randomforests -project algo_public -DinputTableName="pai_rf_test_input" -DmodelName="pai_rf_test_model" -DforceCategorical="f1" -DlabelColName="class" -DfeatureColNames="f0,f1" -DmaxRecordSize="100000" -DminNumPer="0" -DminNumObj="2" -DtreeNum="3";
- 使用PAI命令,提交预测组件参数。
PAI -name prediction -project algo_public -DinputTableName=pai_rf_test_input -DmodelName=pai_rf_test_model -DresultColName=prediction_result -DscoreColName=prediction_score -DdetailColName=prediction_detail -DoutputTableName=pai_temp_2283_76333_1
- 查看输出结果表pai_temp_2283_76333_1。
在文档使用中是否遇到以下问题
更多建议
匿名提交