模型预测

该组件实现EasyRec离线预测(predict)功能。

前提条件

已完成模型训练

可视化配置参数

  • 输入桩

输入桩(从左到右)

建议上游组件

对应PAI命令参数

是否必选

输入模型

  • 数据类型:OSS存储的模型

  • 支持的组件:模型训练

saved_model_dir

输入表

input_table

  • 组件参数

页签

参数

是否必选

描述

对应PAI命令参数

默认值

参数设置

输入选择列

从输入表选择特征列给到预测模型,不能与排除列同时使用。

selected_cols

排除列

预测模型不需要使用的输入列,不能和输入选择列同时使用。

excluded_cols

输出保留列

在预测结果表中原样输出的列。

reserved_cols

预测详情输出列

选择预测模型的输出到MaxCompute表的映射,详情请参见EasyRec离线预测

output_cols

默认为probs double

miniBatch的大小

minibatch的大小,表示一个批次中包含的最少样本数量。

batch_size

1024

指定算法版本

选中高级选项,支持配置该参数。

支持自定义EasyRec的执行版本。

  1. 首先参考EasyRec版本更新生成一个EasyRecTAR包。

  2. 上传对应版本的TAR包到OSS Bucket路径,具体操作,请参见控制台上传文件

  3. 在该参数中选中已上传的TAR包。

script

执行调优

Worker数量

Worker的数量。

会拼装成cluster参数

1

Worker CPU用量

Worker申请的CPU数量,取值1表示一个CPU核。

6

Worker Memory用量

Worker申请的内存,单位为MB,取值100表示100 MB。

30000

Worker GPU卡数

EasyRec训练中,一般不需要使用GPU。

0

  • 输出桩

输出桩(从左到右)

数据类型

对应PAI命令参数

输出表

MaxCompute

output_table

PAI命令及说明

PAI -project algo_public -name easy_rec_ext 
    -Darn="acs:ram::xxx:role/aliyunodpspaidefaultrole" 
    -Dbatch_size="1024" 
    -Dbuckets="oss://rec_sln_demo/" 
    -Dcluster="{\"worker\": {\"count\": 1, \"cpu\": 600, \"gpu\": 0, \"memory\": 30000}}" 
    -Dcmd="predict" 
    -Dinput_table="odps://pai_hangzhou/tables/pai_temp_flow_inpwi02on49ooub78p_node_dn3y3lvucm862jr71n_outputTable" 
    -Dlifecycle="28" 
    -DossHost="oss-cn-hangzhou-internal.aliyuncs.com" 
    -Doutput_cols="item_emb string" 
    -Doutput_table="odps://pai_hangzhou/tables/pai_temp_flow_da1nuzwmbdfyw5kajy_node_5jgko0vlrjiwawp6y8_outputTable" 
    -Dreserved_cols="item_id" 
    -Dsaved_model_dir="oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1/20230425/export/final/item" 
    -Dscript="oss://rec_sln_demo/easy_rec_ext_0.6.1_res.tar.gz";

参数名称

是否必选

描述

saved_model_dir

导出的模型目录。

input_table

输入表。

output_table

输出表,不需要提前创建,会自动创建。

reserved_cols

需要复制到output_table的列,多列之间使用半角逗号(,)分隔。

output_cols

指定输出表里面的列名和类型,多列之间使用半角逗号(,)分隔。

batch_size

minibatch的大小。

arn

指定授权资源,您可以登录PAI控制台,在开通和授权>全部云产品依赖页面的Designer区域,单击操作列下的查看授权信息,获取arn。

buckets

模型文件所在的Bucket和保存模型的Bucket目录,如果有多个Bucket,使用半角逗号(,)分隔,例如:oss://xxxx/,oss://xxxx/

ossHost

OSS各地域Endpoint。如何获取Endpoint,请参见访问域名和数据中心

script

指定EasyRec Tar包所在的OSS Bucket路径,如何配置EasyRec Tar包,请参见EasyRec版本更新

使用示例

  1. 创建如下工作流。d97c947a2a84a25c45582ba08920423c..png

    区域

    描述

    ①②③

    如何配置组件参数,请参见模型训练的使用示例

    模型预测的左侧输入桩接入到模型训练组件的下游,右侧输入桩接入到读数据表-2组件的下游,排除列选择clk输出保留列选择user_idpid

  2. 工作流运行结束后,右键单击模型预测组件,在快捷菜单,单击查看数据>输出表image..png

    输出结果列含义说明,详情请参见离线预测

更完整的使用方式请参考推荐算法定制-向量召回节点13_rec_sln_demo_dssm_recall_item_embedding_v1和节点14_rec_sln_demo_dssm_recall_user_embedding_v1