推荐效果评估及优化操作指南-智能推荐 AIRec-阿里云

一、目的

在完成AIRec智能推荐产品的前期接入以后，评估和确定产品可以带来的效果提升，以及与目前自有人工定制/自研推荐策略的区别。

同时，您也可以使用AIRec产品拥有的策略运营工具达成您希望实现的业务效果，这些策略也可以通过AIRec自带的ABTest功能进行调优与效果评估。

二、评估指标

一般从业务提升角度来讲，使用推荐算法的目的为：

1、从海量商品中，聚焦到每个用户，千人千面的筛选出符合每个用户喜好的个性化内容，以提高用户浏览意愿；

2、推荐用户感兴趣的商品，提高用户浏览粘度，避免用户因看不到感兴趣的东西而流失；

3、展示用户可能感兴趣，有购买意愿的商品，吸引用户点击商品、了解详情，进而吸引用户购买，产生消费行为，提高用户转化率、提升销量，等等。

因此，AIRec产品主要关注并着力提升的，主要包括以下几个指标：

PV_CTR：即点击通过率，计算公式：总点击数/总曝光数。（不去重）

UV_CTR：基于用户的点击率，计算公式：有点击用户/总浏览用户。

PV_CVR（转化率）: 购买次数/点击次数。

UV_CVR（转化率）：购买用户数/点击用户数

活跃item数：统计时间内产生过行为的商品总数。

GMV：一段时间内“购买数量*购买价格”的累加和。

基于我们的经验，这些指标可以比较直接并真实的体现出当前业务场景下，用户对推荐商品的感兴趣程度和浏览意愿以及购买意愿，并以此为基础评估推荐算法和策略的合理性。

如您有其他指标的关注和提升需求，可联系我们。

三、评估方式

AIRec与客户自有策略对比：

如您希望评估AIRec与您自有的算法/人工策略的差异，建议评估方式以ABtest对比方式为主，需设置两组流量，两组流量之间差距不宜太大且应保持一定量，针对两组流量分别进行每天的PV_CTR、UV_CTR、PV_CVR、UV_CVR的指标统计，可分别做出折线图查看效果指标提升或下降趋势。

您可以在上传行为数据时，将两组流量的行为数据都上传给我们，通过trace_id字段标识该用户属于哪组流量，这样就可以通过AIRec控制台的“效果分析”页面直观的看到AIRec产品与您自有的算法/人工策略的各项指标之间的差异，更直观的进行评估。

image..png

AIRec自身对比：

如您希望尝试使用AIRec自带的策略调整与运营工具功能，并评估其带来的效果，评估方式也以对比为主，不同的是需要对比相同场景、相同的其他策略下，调整某项策略前后不同时间的相同指标，例如本周与上周的效果对比，期间需确保其他策略等变量保持一致，才能得出可信的结果。

此外，对于算法配置版实例，我们提供更方便的基于实验平台的ABTest功能，您可以直接使用现成的ABTest平台对推荐策略、召回算法配置进行调整和效果评估，通过给不同配置的实验分配不同流量，同时观察效果来获得准确可信的效果数据。

四、评估范围

数据范围：

评估效果的数据范围限定为APP中使用智能推荐的部分，比如使用智能推荐商品的tab、页面、模块等位置，限定此位置的所有指标为对比数据来源

时间范围：

如果是AIRec与人工/自研对比，需要同时进行分流观察，并建议至少观察一个月；如果是AIRec自身对比，建议以相同时间单元进行对比，比如前一周与后一周，并建议持续进行观察，避免某些时效性事件产生的影响。

五、评估标准

为确保评估的准确性、真实可靠程度，需尽量满足控制变量原则，让算法作为唯一变量，需要注意包括但不限于以下标准

1、确认物品池与基础策略一致

两侧实验组的物品池首先需要保持一致，是ABTest结果可信的基础。

其次，例如打散、曝光过滤等基础的展示策略需要保持一致。

2、确认埋点数据采集口径一致

进行效果对比时，需要确保数据采集口径完全一致，才能得出可信的对比结果。

如果需要使用历史数据做不同时间段的对比，也需要确认使用推荐系统前后采集口径是否一致，不一致的话需要明确原因，看是否可以做修正，亦或选择上线推荐系统后自行做分流ABtest测试对比。

3、确保两侧流量分配的随机性

效果对比时为了确保公平性，要确认流量分配的随机性，避免把具有特定行为的用户群体指定的放入某个对比组当中，应遵循随机分配的原则，即用户在实验开始前是完全随机的分配到实验组中，并在后续不可再更改所属的实验组，直到试验结束

此外，用户数量也需要有一定规模，避免出现某个用户的非常规行为影响了整个对比试验准确性的情况，因此越多用户参与得到的结果可信度越高。

4、确保对比实验的场景、使用方式一致

例如首页场景对比，需要在同一个位置内展示AIRec推荐的商品/非AIRec的其他策略推荐的商品。

同时需要注意基本运营策略一致，例如曝光过滤、多样规则、是否只采用有图商品等等，要确定AIRec算法侧的策略和其他对比实验的策略是相同的。

六、调优方式

AIRec的推荐效果调优可以分为两类方式，策略调优与算法调优：

策略调优

策略调优指的是使用AIRec产品内置的策略配置与运营工具，对推荐结果进行调整或定制，一般用于达成某些业务效果或运营目的（如提升推荐结果多样性、或对指定物品进行置顶、流量调控），提高客户浏览体验。

算法调优

算法调优指的是通过对AIRec推荐算法的召回链路进行参数调整，从召回算法层面对推荐出的结果进行调优，算法调优依赖于实验平台功能，目前仅算法配置版实例可支持。

此外，如您有更个性化的算法调优需求，也可以联系我们进一步沟通。

策略调优流程：

在AIRec智能推荐产品内，所有策略调优相关的功能点与流程如下：

1、实例级别：

实例级别的策略调整会在整个实例范围内生效，包含所有场景。

策略配置：

位置：运营助手-策略配置

image..png

展示策略：可以设置疲劳度规则，如避免展示、点击过的item短时间内重复推荐，以及用户刷空内容后允许重复推荐等。

品控策略：可以针对每个单品分别进行上下架、加权、删除、查看等操作。

参考文档：

推荐策略

通过实例运营策略提升推荐结果多样性

流量调控：

针对通过一定条件选定的一批物品，进行流量倾斜扶持（或打压），让这部分物品提升（或降低）曝光量、点击率等，可用于优质商品/内容的扶持。

流量调控策略可作用于整个实例，也可作用在某个场景。

位置：运营助手-流量调控

参考文档：

通过流量调控功能实现物品扶持

2、场景级别：

场景级别的策略调整，所有调整只会在当前场景内生效

位置：运营助手-场景搭建-（某个指定场景的）配置

选品规则：在场景创建时选择了“指定入围条件选品”的方式时，可以利用此功能划定当前场景推荐的物品的物品池，AIRec会实时动态刷新符合条件的item，您可以在此处修改筛选条件，以让当前场景推荐的选品符合业务需求。

运营规则：可以定制调整当前场景的疲劳度规则、多样性规则等策略，多样性规则包括可以定制指定内容推荐比例，以及根据不同字段的打散规则等。

算法调优流程（算法配置版）：

在场景的基础上，您可以在每个场景中独立控制开启实验功能，支持您更进一步的针对召回算法做定制化调整；每个场景之间的实验功能相互独立。

位置：在线实验平台-实验参数配置-（指定场景指定实验的）详情

ABTest实验：在当前场景内，您可以分别创建不同的实验，每个实验内都可以设置一套不同的召回链路策略配置，然后给每个实验分配流量，即可查看不同实验配置对效果带来的影响，通过不断的对比找到最优的配置。

实验流量桶：您可以分别把每个场景的流量按照指定规则分为10或20个流量桶，这些流量桶可以自由分配给不同实验，可用于小批量测试不同策略的效果。

实验配置：在每个实验内，您可以针对各个召回链路及其子召回链路分别进行开关、参数、优先级等定制，具体方式可查看文档。

实验建立等操作详见参考文档：

实验参数配置

实验效果分析

此外，如您有其他定制化算法调优需求，可联系我们进行评估。

七、效果观察

AIRec提供了上述“评估指标”当中的一系列报表可供您评估，在控制台“效果分析”处即可查看，详见：切流与效果观察

image..png

如您使用了AIRec算法配置版的实验平台功能，您同样可以在实验平台的“实验效果分析”页面看到上述指标在不同实验之间的对比图表，可以方便的评估各个实验的效果，详见：实验效果分析