本文为您介绍PAI-Studio提供的预测算法。

预测

通常,传统的数据挖掘算法都可以使用预测组件进行模型预测。该组件的输入为训练模型和预测数据,输出为预测结果。

PAI-Studio支持通过可视化或PAI命令的方式,配置该组件参数:
  • 可视化方式
    页签 参数 描述
    字段设置 特征列 参与预测的特征列,默认选择所有列。
    原样输出列 建议添加标签列,便于评估。
    输出结果列名 输出表的结果列。
    输出分数列名 输出i表的分数列。
    输出详细列名 输出表的详细列。
    稀疏矩阵 使用KV格式表示稀疏数据。
    key与value分隔符 默认为英文冒号(:)。
    kv对间的分隔符 默认为英文逗号(,)。
    执行调优 核心数 与参数每个核的内存大小搭配使用,取值范围为正整数。
    每个核的内存大小 与参数核心数搭配使用,单位为MB。
  • PAI命令方式
    pai -name prediction
        -DmodelName=nb_model
        -DinputTableName=wpbc
        -DoutputTableName=wpbc_pred
        -DappendColNames=label;
    参数 是否必选 描述 默认值
    inputTableName 输入表的名称。
    featureColNames 输入表中,参与预测的特征列,多个列以英文逗号(,)分隔。 所有列
    appendColNames 输入表中,附加至输出表的预测列。
    inputTablePartitions 输入表中,参与训练的分区。支持以下格式:
    • Partition_name=value
    • name1=value1/name2=value2:多级格式
    说明 如果指定多个分区,则使用英文逗号(,)分隔。
    全表
    outputTablePartition 结果输出至输出表的分区。
    resultColName 输出表的结果列。 prediction_result
    scoreColName 输出表的分数列。 prediction_score
    detailColName 输出表的详细列。 prediction_detail
    enableSparse 输入数据是否为稀疏格式,取值范围为{true,false} false
    itemDelimiter 稀疏格式KV对之间的分隔符。 英文逗号(,)
    kvDelimiter 稀疏格式keyvalue之间的分隔符。 英文冒号(;)
    modelName 输入的聚类模型。
    outputTableName 输出表。
    lifecycle 输出表的生命周期。
    coreNum 节点个数。 系统自动分配
    memSizePerCore 每个节点的内存,单位为MB。 系统自动分配

预测示例

  1. 使用SQL语句,生成测试数据。
    create table pai_rf_test_input as
    select * from
    (
    select 1 as f0,2 as f1, "good" as class from dual
    union all
    select 1 as f0,3 as f1, "good" as class from dual
    union all
    select 1 as f0,4 as f1, "bad" as class from dual
    union all
    select 0 as f0,3 as f1, "good" as class from dual
    union all
    select 0 as f0,4 as f1, "bad" as class from dual
    )tmp;
  2. 使用PAI命令,构建模型(以随机森林算法为例)。
    PAI -name randomforests
       -project algo_public
       -DinputTableName="pai_rf_test_input"
       -DmodelName="pai_rf_test_model"
       -DforceCategorical="f1"
       -DlabelColName="class"
       -DfeatureColNames="f0,f1"
       -DmaxRecordSize="100000"
       -DminNumPer="0"
       -DminNumObj="2"
       -DtreeNum="3";
  3. 使用PAI命令,提交预测组件参数。
    PAI -name prediction
        -project algo_public
        -DinputTableName=pai_rf_test_input
        -DmodelName=pai_rf_test_model
        -DresultColName=prediction_result
        -DscoreColName=prediction_score
        -DdetailColName=prediction_detail
        -DoutputTableName=pai_temp_2283_76333_1
  4. 查看输出结果表pai_temp_2283_76333_1预测组件结果