全部产品
阿里云办公

不带标签的用户冷启动

更新时间:2017-09-25 15:49:05

输入

数据 是否必选 描述
ITEM_META 必选 物品表
REC_ITEM_INFO 必选 可推荐物品表
REALTIME_LOG 必选 注册新物品的实时日志
ITEM_META_CONFIG 必选 物品属性维度表

输出

数据 数据类型 描述
NEW_USER_ITEM_REC REC_SET 新用户对物品的推荐候选集(近线产出)

参数

算法参数
  • ee算法(explorer-exploit算法)算法详情

    可选算法 beta_bandit, UCB_bandit

    • beta_bandit

    假设每个类目是否产生收益,其背后有一个概率分布,产生收益的概率为p,我们不断地试验,去估计出一个置信度较高的概率p的概率分布就能近似解决这个问题了。怎么能估计概率p的概率分布呢? 答案是假设概率p的概率分布符合beta(wins, lose)分布,它有两个参数: wins, lose。每个类目都维护一个beta分布的参数。每次试验后,选中一个类目,摇一下,选择一个物品,有收益则该臂的wins增加1,否则该臂的lose增加1。每次选择类目的方式是:用每个类目现有的beta分布产生一个随机数b,选择所有类目产生的随机数中最大的topn个类目去摇。出处

    • UCB_bandit

    先对每个类目都试一遍,之后每次都选择置信最大的topn个类目,选取里面的物品作为推荐物品。出处

参数名 默认值 描述
topn 10 根据ee算法计算出每个类目的感兴趣分,获取用户topn个感兴趣的类目
posbhv like 正向反馈行为,对推荐效果有利的
子模板参数
  • 分词词库

    默认standard ,可选分词的领域项为e_commerce(电子商务)、law(法律)、broad_tv(直播视频)当选择抽取物品描述(description)特征,必须需要选择一个分词词库。

  • 特征抽取算法

    默认选择抽取物品描述(description)特征,可并行扩展抽取物品关键词(keyowrds)特征、抽取物品属性(properties)特征。

    • 抽取物品描述(description)特征。

      1. 使用条件:物品表中description字段不为空;
      2. 主要功能:对description进行分词,计算词的tf-idf值,根据idf阈值,过滤出对于description来说比较重要的词语。选择不同的标准化方式,对抽取的特征进行标准化。
参数名 默认值 描述
normalize none 特征标准化方式,minmax为用最大最小值进行标准化,zscore用均值标准差进行标准化,none表示不做任何处理,默认采用none(不做任何处理)
max_idf 100 词特征筛选条件,选取小于最大idf阈值的词
min_idf 0 词特征筛选条件,选取大于最小idf阈值的词
  • 抽取物品属性(properties)特征。

    1. 使用条件:物品表中properties字段不为空。
    2. 主要功能:对properties中的属性按照item_meta_config属性维表中的属性类型,进行one-hot编码,并根据选择的标准化方式,对抽取的数值特征进行标准化。
参数名 默认值 描述
normalize none 特征标准化方式,minmax为用最大最小值进行标准化,zscore用均值标准差进行标准化,none表示不做任何处理,默认采用none(不做任何处理)
  • 抽取物品关键词(keyowrds)特征。
    1. 使用条件:物品表中keywords字段不为空。
    2. 主要功能:对keywords字段中的关键词进行one-hot编码,并根据选择的标准化方式,对抽取的数值特征进行标准化。
参数名 默认值 描述
normalize none 选择特征标准化,minmax为用最大最小值进行标准化,zscore用均值标准差进行标准化,none表示不做任何处理
  • 特征变换算法

    目前只提供对连续特征进行离散化算法。特征降维算法持续增加中。

    可设算法参数:

参数名 默认值 描述
discreteMethod SameDistance 特征离散化方法, 可取值:[SameDistance,SameFreq],其中SameDistance为等距离散,SameFreq为等频离散
maxBins 5 特征离散化区间个数

主要逻辑

  • 离线模块

    step1:采用特征工程子模板,抽取物品原始特征。(当物品的properties、description、keywords为空时,该过程产出的结果为空)

    step2:根据物品原始特征,用kmeans对物品进行聚类,默认聚20个物品群组。

    step3:把物品群组的聚类信息(包括物品所属的类别信息,类别的top100个物品信息),传到在线OTS。

  • 近线模块

    step1:接受实时日志,根据用户对每个类目物品的正向行为,更新用户对每个类目的兴趣偏好(这里把预测用户对类目产生正反馈的概率作为兴趣偏好分,用户对类目产生的正反馈概率越高,说明用户越偏好该类目)。

  • 在线模块

    step1:获取用户的topn个偏好类目(近线模块产出的类目偏好)。

    step2:循环获取topn个类目中物品,对物品进行打散处理。

最佳实践

模板适用条件: 没有接入实时日志时,该模板每次返回的结果都一样,类似默认推荐模板。

1、在配置参数时,建议首先分析一下实际行为中哪些行为为正向行为。

2、当物品的properties、description、keywords为空时,即物品无法抽取出特征时,该模板不可用。

3、视频专题讲解:点这里