本文为您介绍如何基于对象特征进行商品推荐。

背景信息

该实验首先对一份真实电商的4月份和5月份数据进行模型训练并生成预测模型,然后通过6月份的购物数据对该预测模型进行评估,最终选择最优的模型,并将其部署为RESTful API供业务方调用。
注意 本实验使用的数据为真实电商脱敏数据,仅用于学习,请勿商用。

该实验数据和完整业务流程已经预置在PAI-Studio模板中,您通过拖拽组件即可快速实现一套基于协同过滤的推荐系统。同时,PAI-Studio支持自动调参及模型一键部署,您可以一键将模型部署为RESTful API。

基于对象特征的推荐场景通用流程

基于特征推荐的流程
  1. 将数据导入MaxCompute,生成有监督的结构化数据。
  2. 进行特征工程,例如数据的预处理和特征衍生。特征衍生的作用是扩充数据维度,使数据能更大限度地展示业务特点。
  3. 将数据拆分为两份。其中一份作为训练数据,通过分类算法生成二分类模型。另一份作为预测数据,通过预测组件对模型效果进行测试。
  4. 通过评估组件,获得模型效果。

数据集

本数据源由天池大赛提供,根据时间将其分为4月份和5月份的购买行为数据和6月份的购买行为数据,具体字段如下。
字段名 含义 类型 描述
user_id 用户编号 STRING 购物的用户ID。
item_id 物品编号 STRING 被购买物品的编号。
active_type 购物行为 STRING
  • 0:表示点击。
  • 1:表示购买。
  • 2:表示收藏。
  • 3:表示加入购物车。
active_date 购物时间 STRING 购物发生的时间。
实验的原始数据示例如下。原始示例数据

实现基于对象特征的推荐

  1. 进入PAI-Studio控制台。
    1. 登录PAI控制台
    2. 在左侧导航栏,选择模型开发和训练 > Studio-可视化建模
    3. PAI可视化建模页面,单击进入机器学习进入机器学习
  2. 构建实验。
    1. 在PAI-Studio控制台的左侧导航栏,单击首页
    2. 模板列表,单击基于对象特征的推荐下的从模板创建
    3. 新建实验对话框,配置参数(可以全部使用默认参数)。
      参数 描述
      名称 输入基于对象特征的推荐
      项目 不支持修改。
      描述 输入基于对象特征的推荐
      位置 选择我的实验
    4. 单击确定
    5. 等待大约十秒钟,在PAI-Studio控制台的左侧导航栏,单击实验
    6. 我的实验下,单击基于对象特征的推荐_XX,构建的实验如下图所示。
      其中我的实验为已配置的实验位置基于对象特征的推荐_XX为已配置的实验名称_XX为系统自动添加的实验序号)。基于对象特征的推荐实验
      区域 描述
      特征工程。将仅有4个字段的原始数据通过特种工程的方法进行数据维度扩充,该实验中的特征包括推荐对象的特征和被推荐对象的特征:
      • 推荐对象为用户(User),扩充的维度为每个User的总购买量、总点击量及总点击购买率(点击量除以购买率,用于描述用户购物的果断性)。
      • 被推荐对象为商品(Item),扩充的维度为每个Item的购买量、点击量及点击购买率(购买量除以点击率)。
      特征工程后,数据集从原始的4个字段扩充到10个字段,如下图所示。特征工程后的数据
      模型训练。该实验使用了逻辑回归算法进行模型训练,您可以通过PAI-Studio预置的Auto ML引擎自动调整逻辑回归组件参数,从而使模型训练达到最优效果。
      模型评估,即使用预留的一部分未参与模型训练的数据评估模型质量。通常,推荐场景都属于二分类实验,可以使用混淆矩阵和二分类评估组件评估模型预测结果。
  3. 使用Auto ML引擎,调整逻辑回归组件参数。
    1. 单击画布上方的Auto ML > 模型自动调参
    2. 自动调参对话框的算法选择区域,单击逻辑回归二分类-1,并单击下一步
    3. 自动调参对话框的调参配置区域,配置如下参数(其他参数使用默认值),并单击下一步
      参数 描述
      数据拆分比例 选择0.7
      调参方式 选择EVOLUTIONARY_OPTIMIZER
      探索样本数 选择5
      探索次数 选择2
      迭代系数 选择0.5
      逻辑回归二分类组件 正则项 选择自定义范围None
      正则系数 配置自定义范围0.1~2
      最小收敛误差 配置自定义范围0.00000001~0.00001
      最大迭代次数 配置自定义范围50~500
    4. 自动调参对话框的调参模型输出选择区域,配置参数,并单击下一步
      参数 描述
      模型产生数量 系统根据调参配置自动计算,无需手动配置。
      算法类型 选择二分类评估
      评估标准 选择AUC
      保存模型数量 选择5
      模型是否向下传导 打开模型是否向下传导开关。
    5. 自动调参对话框,单击确定
    6. 单击画布上方的运行
    7. 逻辑回归二分类-1组件运行结束后,右键单击该组件,在快捷菜单,单击调参运行详情,即可查看调参详情。
  4. 查看模型评估结果。
    1. 右键单击画布中的二分类评估-1,在快捷菜单,单击查看评估报告
    2. 评估报告对话框,单击图表页签,查看ROC曲线。
      AOC曲线其中蓝色区域的面积为AUC值,面积越大表示模型质量越高。
    3. 右键单击画布中的混淆矩阵-1,在快捷菜单,单击查看评估报告
    4. 混淆矩阵对话框,查看预测评估指标。混淆矩阵评估结果
  5. 在线部署模型。
    如果模型效果达到预期,则可以单击画布上方的部署,将其部署为在线服务,详情请参见部署模型