该组件实现EasyRec离线预测(predict)功能。
前提条件
已完成模型训练。
可视化配置参数
输入桩
输入桩(从左到右) | 建议上游组件 | 对应PAI命令参数 | 是否必选 |
输入模型 |
| saved_model_dir | 是 |
输入表 | input_table | 是 |
组件参数
页签 | 参数 | 是否必选 | 描述 | 对应PAI命令参数 | 默认值 |
参数设置 | 输入选择列 | 否 | 从输入表选择特征列给到预测模型,不能与排除列同时使用。 | selected_cols | 无 |
排除列 | 否 | 预测模型不需要使用的输入列,不能和输入选择列同时使用。 | excluded_cols | 无 | |
输出保留列 | 否 | 在预测结果表中原样输出的列。 | reserved_cols | 无 | |
预测详情输出列 | 否 | 选择预测模型的输出到MaxCompute表的映射,详情请参见EasyRec离线预测。 | output_cols | 默认为probs double | |
miniBatch的大小 | 否 | minibatch的大小,表示一个批次中包含的最少样本数量。 | batch_size | 1024 | |
指定算法版本 | 是 | 选中高级选项,支持配置该参数。 支持自定义EasyRec的执行版本。
| script | 无 | |
执行调优 | Worker数量 | 否 | Worker的数量。 | 会拼装成cluster参数 | 1 |
Worker CPU用量 | 否 | Worker申请的CPU数量,取值1表示一个CPU核。 | 6 | ||
Worker Memory用量 | 否 | Worker申请的内存,单位为MB,取值100表示100 MB。 | 30000 | ||
Worker GPU卡数 | 否 | 在EasyRec训练中,一般不需要使用GPU。 | 0 |
输出桩
输出桩(从左到右) | 数据类型 | 对应PAI命令参数 |
输出表 | MaxCompute表 | output_table |
PAI命令及说明
PAI -project algo_public -name easy_rec_ext
-Darn="acs:ram::xxx:role/aliyunodpspaidefaultrole"
-Dbatch_size="1024"
-Dbuckets="oss://rec_sln_demo/"
-Dcluster="{\"worker\": {\"count\": 1, \"cpu\": 600, \"gpu\": 0, \"memory\": 30000}}"
-Dcmd="predict"
-Dinput_table="odps://pai_hangzhou/tables/pai_temp_flow_inpwi02on49ooub78p_node_dn3y3lvucm862jr71n_outputTable"
-Dlifecycle="28"
-DossHost="oss-cn-hangzhou-internal.aliyuncs.com"
-Doutput_cols="item_emb string"
-Doutput_table="odps://pai_hangzhou/tables/pai_temp_flow_da1nuzwmbdfyw5kajy_node_5jgko0vlrjiwawp6y8_outputTable"
-Dreserved_cols="item_id"
-Dsaved_model_dir="oss://rec_sln_demo/EasyRec/deploy/rec_sln_demo_dssm_recall_v1/20230425/export/final/item"
-Dscript="oss://rec_sln_demo/easy_rec_ext_0.6.1_res.tar.gz";
参数名称 | 是否必选 | 描述 |
saved_model_dir | 是 | 导出的模型目录。 |
input_table | 是 | 输入表。 |
output_table | 否 | 输出表,不需要提前创建,会自动创建。 |
reserved_cols | 否 | 需要复制到output_table的列,多列之间使用半角逗号(,)分隔。 |
output_cols | 否 | 指定输出表里面的列名和类型,多列之间使用半角逗号(,)分隔。 |
batch_size | 否 | minibatch的大小。 |
arn | 是 | 指定授权资源,您可以登录PAI控制台,在开通和授权>全部云产品依赖页面的Designer区域,单击操作列下的查看授权信息,获取arn。 |
buckets | 是 | 模型文件所在的Bucket和保存模型的Bucket目录,如果有多个Bucket,使用半角逗号(,)分隔,例如: |
ossHost | 是 | OSS各地域Endpoint。如何获取Endpoint,请参见访问域名和数据中心。 |
script | 否 | 指定EasyRec Tar包所在的OSS Bucket路径,如何配置EasyRec Tar包,请参见EasyRec版本更新。 |
使用示例
创建如下工作流。
区域
描述
①②③
如何配置组件参数,请参见模型训练的使用示例。
④
模型预测的左侧输入桩接入到模型训练组件的下游,右侧输入桩接入到读数据表-2组件的下游,排除列选择clk ,输出保留列选择user_id 、pid。
工作流运行结束后,右键单击模型预测组件,在快捷菜单,单击查看数据>输出表。
输出结果列含义说明,详情请参见离线预测。
更完整的使用方式请参考推荐算法定制-向量召回节点13_rec_sln_demo_dssm_recall_item_embedding_v1和节点14_rec_sln_demo_dssm_recall_user_embedding_v1。