阿里云首页 智能用户增长

模型配置

在商品匹配推荐中,需要先完成模型配置,当且仅当模型执行成功后,可基于模型进行商品匹配推荐。

算法模型需要依赖行为数据集商品标签数据集作为训练数据,经算法引擎学习后生成可用的模型。算法模型的优劣依赖于训练数据,数据质量越高,数据量越大,算法效果越好。

对行为数据集、商品标签数据集的要求如下:

  • 行为类型为购买,行为对象属性为商品粒度。若包含其他行为类型和对象属性,我们提供过滤能力,可以在训练算法模型时排除。

  • 为了提高准确性,行为数据条数≥100万,时间跨度≥2年,用户数≥50万。

  • 商品标签数据集中建议仅包含商品的静态属性标签,例如规格、系列等。统计类标签,例如最近90天销量,将会影响模型训练效果,若存在统计类标签,需要在创建算法模型时指出,以便在训练算法模型时排除。

  • 商品个数≥10。

  • 行为数据集的行为对象属性值ID与商品标签数据集的主键对应,建议均为SPU粒度。

  • 行为数据集、商品标签数据集必须保存于同一个数据源。

模型训练成功后,您可以通过模型验证了解该模型的准确率、召回率,并查看商品之间的关联关系。

模型配置页面如下图所示。

1

创建算法模型

组织管理员、空间管理员,以及具有“算法实验室-商品匹配推荐-新建模型”权限的角色人员可以创建模型。

说明

由于一个工作空间只能运行一个模型。若当前空间已有状态为“训练成功”的模型,您需要先将其下线,才能创建新的模型。

操作步骤:

  1. 选择智能实验室>所在工作空间>商品匹配推荐>模型配置,单击右上角新建模型,配置页面如下图所示。2

  2. 选择行为数据集作为训练数据。

  3. 选择行为类型,即选择“购买”在行为数据集中映射的字段值。

  4. 选择行为对象属性,即选择商品在行为数据集中映射的字段。

  5. 选择商品标签数据集作为训练数据。

  6. 选择商品标签数据集中是否存在统计类标签,若存在,请选择出全部的统计类标签。

    说明

    统计类标签,例如最近90天销量,将会影响模型训练效果,因此需要全部指出,以便系统在模型训练时排除统计类标签。

  7. 输入推荐周期定义(天),支持15~90的整数,即设置为推荐未来N天内的匹配商品。

    说明

    “未来N天”是指以行为数据集的最近行为时间为基准,从该天起的未来N天。

  8. 单击保存并执行,系统将开始训练模型。

    若单击保存,则仅保存配置。

管理算法模型

组织管理员、空间管理员,以及模型创建者可以管理模型。

算法模型列表如下图所示。

3

其中,模型状态分为:

  • 未开始:仅保存未开始训练的模型。

  • 待训练:当组织中正在执行的模型训练和商品推荐任务数超过5个时,超出的模型将排队等待训练。

  • 训练中

  • 训练成功:模型训练成功后,本空间的商品推荐任务将默认使用该模型。

  • 训练失败:模型训练达到24小时无结果时,自动停止训练,以及发生手动结束训练等情况时,为训练失败。鼠标移动到23图标上将显示失败原因。

  • 已下线

您可以对模型进行编辑、查看训练详情、手动更新、结束训练、下线等操作。

编辑模型

对于未开始、训练失败的模型,您可以单击243图标,修改模型配置,配置方法与创建时相同。

查看训练详情

对于训练成功的模型,您可以单击213图标,查看训练的详细信息,请参见下面的查看训练详情

手动更新

对于非待训练、训练中的模型,您可以单击234图标,重新训练该模型。

说明
  • 为了推荐的准确性,建议当训练数据量发生较大变化时更新模型。

  • 当系统检测到行为数据集的数据量增幅达到20%时,将在行为数据集名称后显示XXX图标,提示您对模型进行更新。

  • 对于训练成功的模型,更新时将生成新模型,出现弹窗提示原模型将下线,单击确认后才能开始更新。

下线

对于非待训练、训练中的模型,您可以单击43>下线,将该模型下线。下线后的模型将在保留30天后删除。

查看训练详情

组织管理员、空间管理员,以及具有“算法实验室-商品匹配推荐-模型列表”权限的角色人员可以查看模型列表以及模型的训练详情。

对于训练成功的模型,单击训练详情,进入详情页面,查看模型信息、模型验证和商品关联推荐,如下图所示。

5

模型验证

了解模型验证情况有助于您通过准确率、召回率了解推荐的效果预期,帮助您在后续的商品推荐任务结果中选择恰当的推荐商品数,以便获得较高的推荐效果。

模型验证是取等量人数的随机人群算法验证人群,将他们的准确率、召回率做对比:

  1. 首先,系统取等量人数的随机人群算法验证人群:

    • 算法验证人群:从历史人群中抽取部分人群使用模型进行商品推荐,人数为M人。然后对每人取推荐结果中的TopN商品。

    • 随机人群:从历史人群中随机抽取的M人,与算法验证人群数量相等,作为对照组。然后对每人推荐近一年销量TopN的商品。

  2. 然后,系统分别根据算法验证人群随机人群在预测周期内的购买情况计算准确率、召回率,作为推荐是否成功的量化指标:

    • 准确率:算法验证人群随机人群的命中记录数/预测记录数

    • 召回率:算法验证人群随机人群的命中记录数/实际购买记录数

    说明

    • 预测记录数:一个人的一个推荐商品为一个预测记录,人群中所有人的推荐商品总数M×N为预测记录数。我们将对TopN分多次取值Top3、Top10等,预测记录数也随之不同。

    • 命中记录数:一个人购买一个推荐商品为一个命中记录,人群中所有人购买的推荐商品总数为命中记录数。

    • 实际购买记录数:一个人购买一个任意商品称为一个实际购买记录,人群中所有人购买的任意商品总数为实际购买记录数。

    • 不同的人推荐/购买同一个商品,计为多个记录;同一个人多次购买同一个商品,仅计为1个记录。

    随机人群算法验证人群的准确率、召回率对比如下图所示。

    234

    在结果中:

    • 算法验证人群的准确率、召回率一般比同等人数的随机人群高,说明算法模型成功推荐了匹配的商品。

    • TopN的数量少时的准确率一般比TopN的数量多时高,说明推荐商品数量较少时,前几位推荐商品易于产生精准推荐。

    • TopN的数量多时的召回率一般比TopN的数量少时高,这是由于推荐商品数量增多,命中机会将随之增大。但我们不建议对同一用户推荐过多商品,以免造成用户反感,因此,在创建商品推荐任务时,限制最多推荐10个商品。

商品关联预测

商品关联是指通过分析购买行为和商品的标签特征,算法引擎将产出的商品和商品之间的关联关系。商品关联预测将包含销售额Top 10的商品以及与其关联性最强的前3个商品,以关系图的形式展示他们两两之间的关联性,如下图所示。

6

说明:

  • 圆圈大小:代表商品的销量,购买次数越多,圆圈越大。

  • 线条颜色深浅:代表两个商品间的关联关系,关系越强线条颜色越深。

  • 单击关系图上方的2343图标,关系图将调整至能展示全部商品的比例。单击44放大,单击55缩小,拖拽可移动。

  • 鼠标移动至某个商品后,将弹窗显示商品名称和购买次数,以及与其关联性最强的前3个商品名称和关联购买算法权重(取值0~1,数值越大商品关联性越强),如下图所示。

    7
  • 单击选中某个商品后,可以高亮该商品,以该商品为中心,展示该商品与所有其他商品的关联关系。下方将联动展示关联明细,如下图所示,单击下载明细可下载明细数据。

    8
  • 右上角的下拉选框:

    • 支持基于商品名称进行搜索。

    • 选择商品后,页面效果与单击选中商品相同,如上图所示。

    • 提供“销售额Top10商品”选项,选中后关系图将回到默认状态。9