数据诊断

更新时间: 2025-06-10 15:23:57

使用数据诊断分析用户表、物品表及行为表,可以验证可用特征,指导离散化参数设置,确定统计用户偏好和物品特征所需的数据时间窗口,以及评估训练样本的数据量需求,从而确保数据质量与模型训练资源的合理配置,提升特征工程的科学性、模型训练的效率及推荐结果的精准度。

数据诊断任务类型

PAI-Rec数据诊断包含以下几种任务类型:

任务类型

说明

基础统计分析

用于分析字段的取值分布与缺失率,筛选有效特征(排除高缺失率或异常字段),针对异常特征,应排查日志上传、存储或清洗是否有问题。

物品或用户变化率分析

用于分析用户表或物品表。

例如分析用户表的user_id字段,统计每日增加和减少的数量、比例。如果新用户很多,需考虑新用户推荐策略;如果每日增加的物品数量很多,需考虑物品冷启动的推荐策略。

用户偏好统计周期分析

  • 曾现率:在T日来访的用户中(作为分母),在[T-k,T-1]天曾经来访的用户数(作为分子),计算k日曾现率。期望通过调整k找到曾现率是80%或者90%的k1、k2值,用于后续设置特征工程,计算用户偏好特征和统计训练样本天数。当k2天的曾现率低于90%时,对于剩下的10%用户需要考虑冷启动策略。

  • 第k天的留存率:根据用户行为表计算在T日来访的用户中(作为分母),在T+k天仍然来访的用户数(作为分子),计算k日留存率。

两表关联分析

用于检查行为数据的可用性、ID唯一性和特征是否可用等。有可能行为表关联物品表,出现很多物品特征取值的字段为空,需要定位分析取值为空的原因。

异常行为分析

针对用户行为表做数据分析,其中先定义了上下游行为,上游行为是指曝光,下游行为是指点击加购;上游行为是点击,则下游行为是点赞评论。如果需要同时分析这两组上下游行为,则要创建两个诊断的任务。

对应某些用户、物品的曝光次数过高、或者转化率过高,需要分析这些用户的日志。

前提条件

注册数据表

新增诊断任务

  1. 登录PAI-Rec管理控制台,单击左侧导航栏的推荐方案定制 > 数据诊断

  2. 任务管理页签,单击新增诊断任务,选择对应的任务类型,并完成相关配置。

    基础统计分析

    参数

    说明

    分区字段

    选择相应的ds字段,支持yyyymmddyyyy-mm-dd两种显示格式。

    Tag字段

    选择需要分析的字段。

    Tag字段分隔符

    选择需要的Tag字段的分隔符

    KV字段

    选择为KV类型的字段(例如对用户偏好品类的描述),会对key的数量以及value的分布进行分析,如果没有可以不选择。

    KV字段分隔符

    指定每组KV数据的分隔符。

    Text字段

    选择Text类型的数据,如果没有标题可以不选择。

    字符串类型空值

    指定了在何种取值下判断为空值,将用于空值数/率的统计。

    例如,空格。

    数据百分位分布

    指定需要分析哪些位置的数据取值,如查看多组数据以半角逗号(,)隔开。

    数据百分位分布默认统计的百分位数为:0%,1%,25%,50%,75%,99%,100%。

    周期运

    • (默认):不对数据表进行周期分析,默认重跑任务的业务时间为7天。

    • :设置周期运行时间,对数据表进行周期分析。

    物品或用户变化率分析

    参数

    说明

    分区字段

    选择相应的ds字段,支持yyyymmddyyyy-mm-dd两种显示格式。

    分析字段

    选择具备唯一标识信息的字段。

    周期运行

    • (默认):不对数据表进行周期分析,默认重跑任务的业务时间为7天。

    • :设置周期运行时间,对数据表进行周期分析。

    用户偏好统计周期分析

    参数

    说明

    分区字段

    选择相应的ds字段,支持yyyymmddyyyy-mm-dd两种显示格式。

    用户ID字段

    选择能唯一区分用户的字段。

    曾显率统计周期

    填入需要计算的周期天数,若有多个周期计算,中间用半角逗号(,)隔开。

    单日留存率统计周期

    填入需要计算的周期天数,若有多个周期计算,中间用半角逗号(,)隔开。

    周期留存率统计周期

    指周期对周期的存留率,例如1月份的用户在2月份的存留率。

    可选择按周(默认1周、4周、12周)或按月(默认1月、2月)。

    周期运行

    • (默认):不对数据表进行周期分析,默认重跑任务的业务时间为7天。

    • :设置周期运行时间,对数据表进行周期分析。

    两表关联分析

    参数

    说明

    关联左表

    选择相应的待关联的数据表,左表一般为行为表。

    左表分区字段

    选择相应的ds字段,支持yyyymmddyyyy-mm-dd两种显示格式。

    左表分析字段

    选择需要分析的字段。

    关联右表

    选择待关联的数据表。

    右表分区字段

    选择相应的ds字段,支持yyyymmddyyyy-mm-dd两种显示格式。

    右表分析字段

    选择需要分析的字段。

    任务名称

    可自定义名称。

    Join字段

    选择左右表一致的字段。

    异常数据展示抽样条数

    填入想要看到的异常数据条数,用于展示join失败的数据。

    例如,10。

    周期运行

    • (默认):不对数据表进行周期分析,默认重跑任务的业务时间为7天。

    • :设置周期运行时间,对数据表进行周期分析。

    异常行为分析

    参数

    说明

    分区字段

    选择相应的ds字段,支持yyyymmddyyyy-mm-dd两种显示格式。

    用户ID字段

    选择能唯一区分用户的字段。

    物品ID字段

    选择能唯一区分物品的字段。

    行为字段

    选择区分不同行为事件的字段。

    上游行为取值

    输入待分析的上游行为事件,若有多个行为,中间用半角逗号(,)隔开

    下游行为取值

    输入待分析的下游行为事件,若有多个行为,中间用半角逗号(,)隔开

    分桶数量

    输入需要分桶的数量,用于对行为数据等距分段分析,统计每个分段中的用户分布。

    周期运行

    • (默认):不对数据表进行周期分析,默认重跑任务的业务时间为7天。

    • :设置周期运行时间,对数据表进行周期分析。

  3. 单击保存并计算

查看诊断报告

创建诊断任务后,在推荐方案定制 > 数据诊断任务管理页签,单击目标诊断任务右侧的诊断报告,查看报告详情。

image

如下诊断报告内容仅供参考,请以实际数据诊断结果为准。

基础统计分析

基础统计分析报告展示了每日的用户量、多个bigint特征从最大值、最小值、百分位数和频数统计等信息。

  • 诊断结果显示空值率大于0.4,需要关注city字段。

    image

  • 每日数据总量

    image

  • 唯一值统计,展示了每个字段中唯一值的数量。

    image

    image

  • 百分位数统计,以年龄为例,95%的分位数是50岁,最大值是52岁,最小值是18岁。

    image

  • 直方图统计,把数据分为10个桶,看每个分桶中的数量。

    image

  • Top10频数统计,以年龄为例,统计了年龄出现频数最多的前10个年龄。

    image

  • 频数百分位数,最大值是否与Top10频数统计的最多的一致。

    image

物品或用户变化率分析

物品或用户变化率分析报告,展示了物品或用户在一段时间内的增加数量与减少数量,和增加率与减少率的变化。以分析用户表为例,报告分析了用户增加的数量与减少的数量,和用户的增加率与减少率的变化。

image

image

用户偏好统计周期分析

用户偏好统计周期分析报告,对用户的行为偏好进行了统计分析,展示了用户的留存情况。

image

image

image

两表关联分析

两表关联分析报告,对相关联的两个数据表中的数据进行了相关性的分析,展示了右表在左表中的关联率。

image

image

image

异常行为分析

异常行为分析报告,对上下游的行为进行分析,展示了是否有下游行为大于上游行为的异常。

  • 异常比率低,说明下游行为没有大于上游行为的情况。

    image

  • 上游行为计数统计,统计了曝光的计数,分桶分为10个桶,X轴为上游行为计数的均值,Y轴为出现次数。下游行为计数统计同理。

    image

  • 转化率分析,把转化率分为10个区间,展示了每个区间的数量。

    image

  • Top统计分析,是对上游行为、下游行为和转化率的前多少进行展示,可以知道相应的用户ID,后续可以对此进行更详细的分析。

    image

查看任务日志

创建诊断任务后,可在推荐方案定制 > 数据诊断任务日志页签,查看任务进度。

  • 单击目标任务右侧的查看日志,查看该任务的日志代码。

  • 单击目标任务右侧的配置,查看该任务创建时的配置代码。

image

上一篇: 数据注册 下一篇: 数据诊断
阿里云首页 智能推荐 AIRec 相关技术圈