阿里云首页 智能推荐AIRec

数据源

一、查看原始数据源配置

启动实例后可在此处查看当前行为/用户/物料三种数据的数据源。

注意:

1、实时数据源中可以选择行为数据是否包含曝光/traceInfo数据,具体可见常见问题-数据对接期标题解析失败

2、实时数据源中行为表数据源可以从友盟<—->服务端sdk之间互相转换

1

注:如您在通过历史数据启动实例时启动失败,可点击数据质量报告查看实例启动失败的原因。启动失败

二、查看数据分布统计

在上报完数据后可以在最上方可以查看三天内行为数据总数、用户总数、物品总数。也可以在“物品类型”中查看各个指标,可视化的查看您的item数据分布。

可推荐物品SceneID分布

1

可推荐物品类型分布

不同SceneId的可推荐物品类型分布

4数据分布统计2

不同SceneID的可推荐加权物品占比

不同SceneID的新品占比

4数据分布统计3

不同SceneID的临期物品占比

4数据分布统计4

三、查看数据质量分析

当您上报完数据后,可以通过此处查看当前上报的数据是否存在问题,如果有问题需要点击立即处理 来查看数据需要改正的地方。注意:为提升服务稳定性,建议及时处理数据报告中的异常项,避免数据原因造成效果下跌。也可以通过这里看到行为数据的总数,如需查看上报过来的行为数据明细,请查看本文中四、更新记录查询。数据质量报告有条目数、重复读、合法率、齐全度、登录率等指标,最后还有一个全量数据的统计报告,展示曝光、点击以及点击率、uv/pv等衍生指标。客户可观察这些内容来校验自己的数据质量和业务指标,如果不符合预期可进行针对性检查。上报了存量/增量数据60分钟左右后,数据质量报告可显示数据信息。

2

条目数

含义:每一张表的原始条目数,不去重(实际容量为去重后的数据,见 控制台 — 基本信息使用:帮助用户更清晰的核对上传的历史数据,初步和自己购买的容量进行对比

重复度

含义:每一张表中重复数据的比例,重复数据判断主键如下表

数据表

唯一标识字段组合

用户表

user_id、user_id_type

内容表

item_id、item_type

使用:实际使用数据为去重后的数据,如果重复度过高,会导致有效数据过少。

四、数据与记录查询

更新记录查询

在上报过behavior/user/item数据后,可通过数据与记录查询,根据上报数据的时间,来查看上报过来的三种数据记录,以此确认数据已经成功上报到智能推荐中。

1

已上传数据查询

可在此通过查询功能来直接查看已上传至user/item表中的指定数据。

当您上报完item/user数据后,想要确认某个item/user是否上报成功 或者查询曾经上报过的item/user,即可通过此功能输入item_id、item_type,来查看这条item/user的数据详情。

1

五、查看离线数据配置

开通离线存储,代表将智能推荐服务训练所需的离线数据存储部署在您的企业账户的MaxCompute中,需要您保证这部分离线数据的稳定性、并具备运维这些数据的能力。

注意:对于产出的所有离线数据不要进行高危操作(增加、删除、改写等),否则将会影响智能推荐服务对离线数据的计算。

MaxCompute具体操作详见:MaxCompute官档

智能推荐中需要的MaxCompute授权详见:离线存储授权11

4

分区说明:

1、离线存储的MaxCompute数据表默认由智能推荐创建,创建表的命名规则为:

    • 用户表:airec_cn_xxx_user;

    • 物品表:airec_cn_xxx_item;

    • 行为表:airec_cn_xxx_behavior;

    • 其中,airec_cn_xxx由您的实例ID决定。 如果系统自定义的表名和您已有的表名存在冲突,您可以单击“重命名”进行重命名。 建议您的离线数据存储使用独立的项目空间,尽量不要对离线数据表进行写操作。

2、离线存储的用户表、物品表、行为表为分区表,分区字段为ds STRINGhh STRING。智能推荐引擎每小时会产出一个新分区,产出分区的dshh分别为前一小时的日期和小时。

3、不建议您自行修改生命周期。如您因MaxCompute存储问题等原因需要修改分区生命周期,可参见MaxCompute文档,或联系AIRec答疑同学。

4、减小表分区生命周期,将会带来如下影响:

    • 用户表、物品表 每个分区中会保留全量数据,因此减小用户表、物品表的生命周期不会有很明显的影响,但可能导致无法回滚更早以前的数据。

    • 行为表

      每个分区中只保留对应小时的增量数据,因此减小行为表的生命周期,将会影响推荐引擎的训练数据集,可能会影响推荐效果。

    • 根据算法策略,用户表、物品表需保留至少最近24个小时的分区,行为表需保留至少最近1小时的分区,删除这些分区可能导致未知的结果。

注:建议不要修改分区生命周期,若有特殊原因必须修改请通过工单/钉钉群形式联系开发人员,确认方案后操作。