全部产品

人气模型

更新时间:2020-08-20 18:12:56

人气模型是什么

人气模型属于离线计算的模型,是淘宝搜索最基础的排序算法模型。人气模型会计算量化出每个商品的静态质量及受欢迎的程度的值,这个值称之为商品人气分。虽然人气模型来自淘宝搜索业务,但其实这个模型对于其他的搜索场景也有普适性,在非商品搜索场景中通过人气模型也可以计算出被索引的文档的受欢迎程度。

模型训练使用的特征

  • 实体维度:商品/doc、品牌、商家、叶子类目、一级类目等。
  • 时间维度:1天、3天、7天、14天、30天、时间衰减加权等。
  • 行为维度:曝光、点击、收藏、加购、购买、评论、点赞等。
  • 统计维度:数量、人数、频率、点击率、转化率等。

每个特征从以上4个维度中各取一到两个进行组合,再从历史数据中统计该组合特征最终的特征值。比如,商品(实体)最近1天(时间)的曝光(行为)量(统计指标);商品所在店铺(实体)最近30天(时间)的销量(行为类型+统计维度)等等。由以上方法产生的特征数量级相当于4个维度的笛卡尔积。

使用步骤

  1. 创建模型
  2. 训练模型并检查数据报告
  3. 应用到排序配置-策略管理中

创建具体流程

1.创建人气模型,填写基本信息

1

2.数据源配置,需要首先开通数据采集,等待开通成功。

2
3

3.开通服务器端行为采集后展示具体信息:

状态:如果当前服务器端行为采集的结果(数据校验结果)是数据异常不可用,则如下图所显示的“异常,不可用”,且用户可点击状态信息右侧的“查看数据报告”访问数据报告页面查看详细内容;如果当前服务器端行为采集的结果是数据正常,则显示“正常,可用”
近一次更新日期:是指近一次收到行为数据更新的日期
近一次更新记录数:是指近一次更新的日期当天一天的用户原始的数据更新条数
开通时间:是指服务器端采集首次开通时间
总行为记录数:是指目前当前已有的原始的用户行为记录条数,不是单纯的累计的,因为有的记录会被更新和删除
case1:状态不可用,无法创建成功人气模型:
4
5
case2:状态正常,可以继续创建:
6

4.完成创建

7

5.创建完成后,可以通过A/B测试灰度并评估效果,也可以直接上线,在排序配置中的策略管理里应用人气分值:

8
9
10

人气模型详情

人气模型列表页说明

11
模型名称:为模型创建过程中的输入的模型名称
目标:为模型的目标,在创建人气模型过程中客户选择的具体目标,目前仅支持“点击率”的目标
是否已有可用模型:如果当前模型已有训练成功且通过阈值要求的模型,则显示“是”,如果没有则显示“否”
近一次训练时间:近一次训练的日期
近一次训练状态:数据校验是指首次导入行为数据和增量数据导入时进行的数据质量校验、通过后会进入“待训练”(不通过则显示“数据异常”状态,“数据异常”的状态除了首次全量行为数据同样包含增量数据校验异常后的状态),用户针对待训练的模型启动训练后进入“训练中”状态,如训练失败则显示“训练失败”状态,如训练通过且ACU值高于0.8则显示“已训练并通过”,如训练通过但ACU值小于0.8则显示“已训练未通过”状态
近一次训练AUC值:只有近一次完成训练的人气模型才会有AUC值并显示(无论是否通过),其他近一次训练状态的人气模型因为还未生成AUC值,所以用“-”表示
排序:是指当前人气模型是否已被某排序策略调用,如果已被引用则显示“已应用”,反之则显示“未应用”,如果当前人气模型还没有可用人气模型则显示“-”

人气模型详情页说明

12
线上状态:是指当前人气模型是否已有可用模型,有则显示“已有可用人气模型”,没有则显示“未有可用人气模型”
近一次训练时间:近一次训练的日期
查看数据报告:查看数据质量检查报告
数据源:显示用户在创建时所选择的数据源,目前仅支持“服务器端行为采集”
模型目标:用户创建人气模型时所选择的模型目标,目前仅支持“点击率”;考虑到模型目标对当前模型应用场景的定性重要性,所以人气模型的目标是不可变更的,所以没有配置按钮
定时训练:定时训练相对独立不依赖人气模型的状态,随时可进行“配置”
应用状态:只有线上状态为“已有可用人气模型”时才显示该内容,点击右侧“排序策略”按钮即可跳转到策略管理页面进行配置