全部产品
云市场

数据质量报告

更新时间:2019-07-13 07:35:38

简介

每个成功导入的数据版本都会生成一份数据质量报告,客户可在页面选择不同的数据版本。
数据质量报告有条目数、重复读、合法率、齐全度、登录率等指标,最后还有一个全量数据的统计报告,展示曝光、点击以及点击率、uv/pv等衍生指标。客户可观察这些内容来校验自己的数据质量和业务指标,如果不符合预期可进行针对性检查。

指标

条目数

含义:每一张表的原始条目数,不去重(实际容量为去重后的数据,见 控制台 — 基本信息
使用:帮助用户更清晰的核对上传的历史数据,初步和自己购买的容量进行对比

重复度

含义:每一张表中重复数据的比例,重复数据判断主键如下表

数据表 唯一标识字段组合
用户表 user_id、user_id_type
内容表 item_id、item_type

使用:实际使用数据为去重后的数据,如果重复度过高,会导致有效数据过少。

合法率

含义:每一张表中数据是否符合 开发指南—数据规范 中对应表结构的规则。

数据表 判断依据
用户表 user_id和imei不能同时为空
内容表 item_type是否在规定范围内,status是否为可推荐状态
行为表 bhv_type是否在规定的范围内,item_id或者user_id是否为空

使用:如果数据的合法率较低,建议仔细阅读 开发指南—数据规范 中表结构各个字段的定义,如果理解有偏差请及时仔细阿里技术开发人员。

齐全度

含义:指行为表(历史行为数据)中,可用户表,物品表的关联程度。

举例说明:一条行为数据中,item_id=100。但是物品表中并无item_id=100的数据。因此这条行为会在物品齐全度上为0。

使用:齐全度是一个相对关键的指标,如果物品,用户齐全度过低,会导致实际有效参与训练的行为数据过少,会影响算法效果的初始化。

登录情况

含义:指行为表(历史行为数据)中,user id和imei均为空则视为未登录数据。

注意:登录率和齐全的区别在于,如果一条行为数据,user id有值,但这个值不在用户表中,则这条数据为登录情况为100%,但是齐全度为0。

使用:登录情况主要用来分析判断历史行为数据按照用户维度的分布,辅助分析判断,由于不同的业务逻辑不同,因此登录率低不一定代表着数据有问题。