一、目的
在完成AIRec智能推荐产品的前期接入以后,评估和确定产品可以带来的效果提升,以及与目前自有人工定制/自研推荐策略的区别。
同时,您也可以使用AIRec产品拥有的策略运营工具达成您希望实现的业务效果,这些策略也可以通过AIRec自带的ABTest功能进行调优与效果评估。
二、评估指标
一般从业务提升角度来讲,使用推荐算法的目的为:
1、从海量商品中,聚焦到每个用户,千人千面的筛选出符合每个用户喜好的个性化内容,以提高用户浏览意愿;
2、推荐用户感兴趣的商品,提高用户浏览粘度,避免用户因看不到感兴趣的东西而流失;
3、展示用户可能感兴趣,有购买意愿的商品,吸引用户点击商品、了解详情,进而吸引用户购买,产生消费行为,提高用户转化率、提升销量,等等。
因此,AIRec产品主要关注并着力提升的,主要包括以下几个指标:
PV_CTR:即点击通过率,计算公式:总点击数/总曝光数。(不去重)
UV_CTR:基于用户的点击率,计算公式:有点击用户/总浏览用户。
PV_CVR(转化率): 购买次数/点击次数。
UV_CVR(转化率):购买用户数/点击用户数
活跃item数:统计时间内产生过行为的商品总数。
GMV:一段时间内“购买数量*购买价格”的累加和。
基于我们的经验,这些指标可以比较直接并真实的体现出当前业务场景下,用户对推荐商品的感兴趣程度和浏览意愿以及购买意愿,并以此为基础评估推荐算法和策略的合理性。
如您有其他指标的关注和提升需求,可联系我们。
相关文档:切流与效果观察
三、评估方式
AIRec与客户自有策略对比:
如您希望评估AIRec与您自有的算法/人工策略的差异,建议评估方式以ABtest对比方式为主,需设置两组流量,两组流量之间差距不宜太大且应保持一定量,针对两组流量分别进行每天的PV_CTR、UV_CTR、PV_CVR、UV_CVR的指标统计,可分别做出着折线图查看效果指标提升或下降趋势。
您可以在上传行为数据时,将两组流量的行为数据都上传给我们,通过trace_id字段标识该用户属于哪组流量,这样就可以通过AIRec控制台的“效果分析”页面直观的看到AIRec产品与您自有的算法/人工策略的各项指标之间的差异,更直观的进行评估。
AIRec自身对比:
如您希望尝试使用AIRec自带的策略调整与运营工具功能,并评估其带来的效果,评估方式也以对比为主,不同的是需要对比相同场景、相同的其他策略下,调整某项策略前后不同时间的相同指标,例如本周与上周的效果对比,期间需确保其他策略等变量保持一致,才能得出可信的结果。
此外,对于算法配置版实例,我们提供更方便的基于实验平台的ABTest功能,您可以直接使用现成的ABTest平台对推荐策略、召回算法配置进行调整和效果评估,通过给不同配置的实验分配不同流量,同时观察效果来获得准确可信的效果数据。
四、评估范围
数据范围:
评估效果的数据范围限定为APP中使用智能推荐的部分,比如使用智能推荐推荐商品的tab、页面、模块等位置,限定此位置的所有指标为对比数据来源
时间范围:
如果是AIRec与人工/自研对比,需要同时进行分流观察,并建议至少观察一个月;如果是AIRec自身对比,建议以相同时间单元进行对比,比如前一周与后一周,并建议持续进行观察,避免某些时效性事件产生的影响。
五、评估标准
为确保评估的准确性、真实可靠程度,需尽量满足控制变量原则,让算法作为唯一变量,需要注意包括但不限于以下标准
1、确认物品池与基础策略一致
两侧实验组的物品池首先需要保持一致,是ABTest结果可信的基础。
其次,例如打散、曝光过滤等基础的展示策略需要保持一致。
2、确认埋点数据采集口径一致
进行效果对比时,需要确保数据采集口径完全一致,才能得出可信的对比结果。
如果需要使用历史数据做不同时间段的对比,也需要确认使用推荐系统前后采集口径是否一致,不一致的话需要明确原因,看是否可以做修正,亦或选择上线推荐系统后自行做分流ABtest测试对比。
3、确保两侧流量分配的随机性
效果对比时为了确保公平性,要确认流量分配的随机性,避免把具有特定行为的用户群体指定的放入某个对比组当中,应遵循随机分配的原则,即用户在实验开始前是完全随机的分配到实验组中,并在后续不可再更改所属的实验组,直到试验结束
此外,用户数量也需要有一定规模,避免出现某个用户的非常规行为影响了整个对比试验准确性的情况,因此越多用户参与得到的结果可信度越高。
4、确保对比实验的场景、使用方式一致
例如首页场景对比,需要在同一个位置内展示AIRec推荐的商品/非AIRec的其他策略推荐的商品。
同时需要注意基本运营策略策略一致,例如曝光过滤、多样规则、是否只采用有图商品等等,要确定AIRec算法侧的策略和其他对比实验的策略是相同的。
六、调优方式
AIRec的推荐效果调优可以分为两类方式,策略调优与算法调优:
策略调优
策略调优指的是使用AIRec产品内置的策略配置与运营工具,对推荐结果进行调整或定制,一般用于达成某些业务效果或运营目的(如提升推荐结果多样性、或对指定物品进行置顶、流量调控),提高客户浏览体验。
算法调优
算法调优指的是通过对AIRec推荐算法的召回链路进行参数调整,从召回算法层面对推荐出的结果进行调优,算法调优依赖于实验平台功能,目前仅算法配置版实例可支持。
此外,如您有更个性化的算法调优需求,也可以联系我们进一步沟通。
策略调优流程:
在AIRec智能推荐产品内,所有策略调优相关的功能点与流程如下:
1、实例级别:
实例级别的策略调整会在整个实例范围内生效,包含所有场景。
策略配置:
位置:运营助手-策略配置
展示策略:可以设置疲劳度规则,如避免展示、点击过的item短时间内重复推荐,以及用户刷空内容后允许重复推荐等。
品控策略:可以针对每个单品分别进行上下架、加权、删除、查看等操作。
参考文档:
流量调控:
针对通过一定条件选定的一批物品,进行流量倾斜扶持(或打压),让这部分物品提升(或降低)曝光量、点击率等,可用于优质商品/内容的扶持。
流量调控策略可作用于整个实例,也可作用在某个场景。
位置:运营助手-流量调控
参考文档:
2、场景级别:
场景级别的策略调整,所有调整只会在当前场景内生效
位置:运营助手-场景搭建-(某个指定场景的)配置
选品规则:在场景创建时选择了“指定入围条件选品”的方式时,可以利用此功能划定当前场景推荐的物品的物品池,AIRec会实时动态刷新符合条件的item,您可以在此处修改筛选条件,以让当前场景推荐的选品符合业务需求。
运营规则:可以定制调整当前场景的疲劳度规则、多样性规则等策略,多样性规则包括可以定制指定内容推荐比例,以及根据不同字段的打散规则等。
相关文档:
3、单次请求级别:
在控制台以外,您也可以针对每次请求的推荐结果进行定制,目前支持推荐过滤与置顶功能:
推荐过滤:
您可以通过item数据的某些字段,对推荐结果进行筛选,用于在某些业务场景下,用户想要看到指定条件的商品内容的需求
使用方式为请求推荐接口时,加上一个filter,详见文档:
置顶功能:
如果您有希望固定展示在靠前位置的内容,可以通过AIRec的置顶功能进行设置和实现。
您可以通过在获取推荐结果时传入参数来控制当前这次请求是否需要获取置顶内容。
详见文档:
算法调优流程(算法配置版):
在场景的基础上,您可以在每个场景中独立控制开启实验功能,支持您更进一步的针对召回算法做定制化调整;每个场景之间的实验功能相互独立。
位置:在线实验平台-实验参数配置-(指定场景指定实验的)详情
ABTest实验:在当前场景内,您可以分别创建不同的实验,每个实验内都可以设置一套不同的召回链路策略配置,然后给每个实验分配流量,即可查看不同实验配置对效果带来的影响,通过不断的对比找到最优的配置。
实验流量桶:您可以分别把每个场景的流量按照指定规则分为10或20个流量桶,这些流量桶可以自由分配给不同实验,可用于小批量测试不同策略的效果。
实验配置:在每个实验内,您可以针对各个召回链路及其子召回链路分别进行开关、参数、优先级等定制,具体方式可查看文档。
实验建立等操作详见参考文档:
此外,如您有其他定制化算法调优需求,可联系我们进行评估。
七、效果观察
AIRec提供了上述“评估指标”当中的一系列报表可供您评估,在控制台“效果分析”处即可查看,详见:切流与效果观察
如您使用了AIRec算法配置版的实验平台功能,您同样可以在实验平台的“实验效果分析”页面看到上述指标在不同实验之间的对比图表,可以方便的评估各个实验的效果,详见:实验效果分析