数据源

完成基本信息配置后,需要向AIRec传入行为/用户/物品数据,这是推荐算法运行过程必要的输入。本文主要介绍数据源的管理和数据接入环节常见问题的诊断方法。

一、原始数据源配置

AIRec有两类数据源:启动数据源和实时数据源。启动数据源是在实例初始化阶段上传的数据,是您购买AIRec服务之前就已经拥有的历史数据,一般是一次性上传到AIRec中的;实时数据源是在实例运行过程中上传的数据,是您购买AIRec服务之后才获得的实时数据,一般是分多次上传的;

启动数据源配置:修改启动数据源之后,原有数据会丢失,实例将重新启动。

实时数据源配置:

  • 您需要确认上传的行为数据中是否包含曝光/traceInfo数据,这两类数据对于智能推荐算法来说是必须的。如果您暂时没有办法提供准确的曝光/traceInfo数据,选择“否,需特殊处理”后AIRec可以自动补足曝光/traceInfo数据,以快速启动实例。具体可见常见问题-数据对接期

  • 行为表的实时数据源支持在友盟SDK和服务端SDK之间互相切换,点击“修改数据源”字段即可进入配置界面。

二、数据分布统计

数据上传完成后可以查看以统计时间为截止点的三天内行为数据总数、当前用户总数、当前物品总数。此外,您还可以在“物品类型”部分查看各项物品分布指标,对现有物品构成有较为全面的了解。

可推荐物品SceneID分布

可推荐物品类型分布

不同SceneId的可推荐物品类型分布

不同SceneID的可推荐加权物品占比

不同SceneID的新品占比

不同SceneID的临期物品占比

三、数据质量诊断

数据上传的链路较长,有可能因为代码bug、网络不稳定等原因导致数据丢失、延时明显等情况,影响到数据质量。数据质量诊断模块可以帮助您全面检测数据存在的问题,并提示您如何解决这些问题。

系统每天24:00会自动生成当天0:00-24:00期间的数据诊断报告。您也可以点击“启动诊断”按钮,结合自己的实际需求生成特定时间段内的数据诊断报告(数据诊断一般需要5-10分钟完成)。

数据诊断报告包括数据概况、诊断结果、诊断详情三部分,数据概况部分统计了用户/物品/行为数据的总数,方便检验是否有数据的丢失。诊断结果部分概括了当前的数据质量情况,诊断详情部分详细罗列出问题项。

诊断详情部分将存在的问题细分为服务可用性和算法可用性两类,并将较为重要的问题呈现在【高优修复】栏,在您的研发资源有限的情况下可以明确优先处理的问题。(行为数据无需修改,保证下一次上传的新行为数据正常即可)。

注意:为提升服务稳定性,建议及时处理报告中的异常项,避免数据质量原因造成效果下跌。

四、数据与记录查询

数据与记录查询模块支持对更新记录的查询和已上传数据的查询。

用户和物品的信息可以多次更新,用户行为也可以重复产生(如复购),每次都会产生一条更新记录。。您可以在行为消息、物品消息和用户消息模块,查看特定时间段内上传的三种数据记录。点击“展开更多”字段,可以支持更多种筛选条件。既可以确认数据已经成功上传,又可以检查特定数据上传前后是否一致。

可以在物品数据、用户数据模块查询当前某个用户或物品的详细信息。根据item_id、item_type可以查询物品信息,根据user_id或设备id可以查询用户信息,系统将返回物品/用户信息的明细和信息更新轨迹。

五、离线数据配置

实例初始化时您已经完成了离线数据的配置,可以选择储存在您自有的MaxCompute项目中,也可以交给AIRec托管。如果实例完成初始化后,您想更改离线数据储存位置,可以点击“切换MaxCompute数据”按钮进入配置页面。

如果您选择将离线数据储存在自有的MaxCompute项目中,代表将AIRec算法训练所需的离线数据存储在您的MaxCompute账户中,需要您保证这部分离线数据的稳定性、并具备运维这些数据的能力。

注意:对于产出的所有离线数据不要进行高危操作(增加、删除、改写等),否则将会影响智能推荐服务对离线数据的计算。

MaxCompute具体操作详见:MaxCompute官档

智能推荐中需要的MaxCompute授权详见:离线存储授权

分区说明:

1、离线存储的MaxCompute数据表默认由智能推荐创建,创建表的命名规则为:

    • 用户表:airec_cn_xxx_user;

    • 物品表:airec_cn_xxx_item;

    • 行为表:airec_cn_xxx_behavior;

其中,airec_cn_xxx由您的实例ID决定。 如果系统默认的表名和您已有的表名存在冲突,您可以单击“重命名”进行重命名。 建议您的离线数据存储使用独立的项目空间,尽量不要对离线数据表进行写操作。

2、离线存储的用户表、物品表、行为表为分区表,分区字段为ds STRINGhh STRING。智能推荐引擎每小时会产出一个新分区,产出分区的dshh分别为前一小时的日期和小时。

3、不建议您自行修改生命周期。如您因MaxCompute存储问题等原因需要修改分区生命周期,可参见MaxCompute文档,或联系AIRec答疑同学。

4、减小表分区的生命周期,将会带来如下影响:

    • 用户表、物品表:每个分区中会保留全量数据,因此减小用户表、物品表的生命周期不会有很明显的影响,但可能导致无法回滚更早以前的数据。

    • 行为表:每个分区中只保留对应小时的增量数据,因此减小行为表的生命周期,将会影响推荐引擎的训练数据集,可能会影响推荐效果。

    • 根据算法策略,用户表、物品表需保留至少最近24个小时的分区,行为表需保留至少最近1小时的分区,删除这些分区可能导致未知的结果。

注:建议不要修改分区生命周期,若有特殊原因必须修改请通过工单/钉钉群形式联系开发人员,确认方案后操作。

阿里云首页 智能推荐AIRec 相关技术圈