人气模型

人气模型是什么

人气模型属于离线计算的模型,是淘宝搜索最基础的排序算法模型。人气模型会计算量化出每个商品的静态质量及受欢迎的程度的值,这个值称之为商品人气分。虽然人气模型来自淘宝搜索业务,但其实这个模型对于其他的搜索场景也有普适性,在非商品搜索场景中通过人气模型也可以计算出被索引的文档的受欢迎程度。

模型训练使用的特征

  • 实体维度:商品/doc、品牌、商家、叶子类目、一级类目等。

  • 时间维度:1天、3天、7天、14天、30天、时间衰减加权等。

  • 行为维度:曝光、点击、收藏、加购、购买、评论、点赞等。

  • 统计维度:数量、人数、频率、点击率、转化率等。

每个特征从以上4个维度中各取一到两个进行组合,再从历史数据中统计该组合特征最终的特征值。比如,商品(实体)最近1天(时间)的曝光(行为)量(统计指标);商品所在店铺(实体)最近30天(时间)的销量(行为类型+统计维度)等等。由以上方法产生的特征数量级相当于4个维度的笛卡尔积。

使用步骤

  1. 创建模型

  2. 训练模型并检查数据报告

  3. 应用到排序配置-策略管理中

【温馨提示】:单个应用最多创建5个人气模型。

创建具体流程

1.创建人气模型,控制台-->搜索算法中心-->排序配置-->人气模型,点击创建。

按要求填写模型名点击确定

2.点击确认后,创建完成页面如下图所示。

3.点击排序配置>人气模型>训练模型此时状态会被更新成调度中,等待模型训练完毕即可。

人气模型详情

人气模型列表页说明

模型名称:为模型创建过程中的输入的模型名称。

目标:为模型的目标,在创建人气模型过程中客户选择的具体目标,目前仅支持“点击率”的目标。

是否已有可用模型:如果当前模型已有训练成功且通过阈值要求的模型,则显示“是”,如果没有则显示“否”。

近一次训练时间:近一次训练的日期。

近一次训练状态:数据校验是指首次导入行为数据和增量数据导入时进行的数据质量校验、通过后会进入“待训练”(不通过则显示“数据异常”状态,“数据异常”的状态除了首次全量行为数据同样包含增量数据校验异常后的状态),用户针对待训练的模型启动训练后进入“训练中”状态,如训练失败则显示“训练失败”状态,如训练通过且AUC值高于0.6则显示“已训练并通过”,如训练通过但AUC值小于0.6则显示“已训练未通过”状态。

近一次训练AUC值:只有近一次完成训练的人气模型才会有AUC值并显示(无论是否通过),其他近一次训练状态的人气模型因为还未生成AUC值,所以用“-”表示。

排序:是指当前人气模型是否已被某排序策略调用,如果已被引用则显示“已应用”,反之则显示“未应用”,如果当前人气模型还没有可用人气模型则显示“-”。

人气模型详情页说明

线上状态:是指当前人气模型是否已有可用模型,有则显示“已有可用人气模型”,没有则显示“未有可用人气模型”。

近一次训练时间:近一次训练的日期。

查看数据报告:查看数据质量检查报告。

数据源:显示用户在创建时所选择的数据源,目前仅支持“服务器端行为采集”。

模型目标:用户创建人气模型时所选择的模型目标,目前仅支持“点击率”;考虑到模型目标对当前模型应用场景的定性重要性,所以人气模型的目标是不可变更的,所以没有配置按钮。

定时训练:定时训练相对独立不依赖人气模型的状态,随时可进行“配置”。

应用状态:只有线上状态为“已有可用人气模型”时才显示该内容,点击右侧“排序策略”按钮即可跳转到策略管理页面进行配置。

说明

阿里云首页 智能开放搜索 OpenSearch 相关技术圈