数据诊断
使用数据诊断分析用户表、物品表及行为表,可以验证可用特征,指导离散化参数设置,确定统计用户偏好和物品特征所需的数据时间窗口,以及评估训练样本的数据量需求,从而确保数据质量与模型训练资源的合理配置,提升特征工程的科学性、模型训练的效率及推荐结果的精准度。
数据诊断任务类型
PAI-Rec数据诊断包含以下几种任务类型:
任务类型 | 说明 |
基础统计分析 | 用于分析字段的取值分布与缺失率,筛选有效特征(排除高缺失率或异常字段),针对异常特征,应排查日志上传、存储或清洗是否有问题。 |
物品或用户变化率分析 | 用于分析用户表或物品表。 例如分析用户表的user_id字段,统计每日增加和减少的数量、比例。如果新用户很多,需考虑新用户推荐策略;如果每日增加的物品数量很多,需考虑物品冷启动的推荐策略。 |
用户偏好统计周期分析 |
|
两表关联分析 | 用于检查行为数据的可用性、ID唯一性和特征是否可用等。有可能行为表关联物品表,出现很多物品特征取值的字段为空,需要定位分析取值为空的原因。 |
异常行为分析 | 针对用户行为表做数据分析,其中先定义了上下游行为,上游行为是指曝光,下游行为是指点击或加购;上游行为是点击,则下游行为是点赞或评论。如果需要同时分析这两组上下游行为,则要创建两个诊断的任务。 对应某些用户、物品的曝光次数过高、或者转化率过高,需要分析这些用户的日志。 |
前提条件
新增诊断任务
登录PAI-Rec管理控制台,单击左侧导航栏的 。
在任务管理页签,单击新增诊断任务,选择对应的任务类型,并完成相关配置。
基础统计分析
参数
说明
分区字段
选择相应的ds字段,支持yyyymmdd与yyyy-mm-dd两种显示格式。
Tag字段
选择需要分析的字段。
Tag字段分隔符
选择需要的Tag字段的分隔符
KV字段
选择为KV类型的字段(例如对用户偏好品类的描述),会对key的数量以及value的分布进行分析,如果没有可以不选择。
KV字段分隔符
指定每组KV数据的分隔符。
Text字段
选择Text类型的数据,如果没有标题可以不选择。
字符串类型空值
指定了在何种取值下判断为空值,将用于空值数/率的统计。
例如,空格。
数据百分位分布
指定需要分析哪些位置的数据取值,如查看多组数据以半角逗号(,)隔开。
数据百分位分布默认统计的百分位数为:0%,1%,25%,50%,75%,99%,100%。
周期运行
否(默认):不对数据表进行周期分析,默认重跑任务的业务时间为7天。
是:设置周期运行时间,对数据表进行周期分析。
物品或用户变化率分析
参数
说明
分区字段
选择相应的ds字段,支持yyyymmdd与yyyy-mm-dd两种显示格式。
分析字段
选择具备唯一标识信息的字段。
周期运行
否(默认):不对数据表进行周期分析,默认重跑任务的业务时间为7天。
是:设置周期运行时间,对数据表进行周期分析。
用户偏好统计周期分析
参数
说明
分区字段
选择相应的ds字段,支持yyyymmdd与yyyy-mm-dd两种显示格式。
用户ID字段
选择能唯一区分用户的字段。
曾显率统计周期
填入需要计算的周期天数,若有多个周期计算,中间用半角逗号(,)隔开。
单日留存率统计周期
填入需要计算的周期天数,若有多个周期计算,中间用半角逗号(,)隔开。
周期留存率统计周期
指周期对周期的存留率,例如1月份的用户在2月份的存留率。
可选择按周(默认1周、4周、12周)或按月(默认1月、2月)。
周期运行
否(默认):不对数据表进行周期分析,默认重跑任务的业务时间为7天。
是:设置周期运行时间,对数据表进行周期分析。
两表关联分析
参数
说明
关联左表
选择相应的待关联的数据表,左表一般为行为表。
左表分区字段
选择相应的ds字段,支持yyyymmdd与yyyy-mm-dd两种显示格式。
左表分析字段
选择需要分析的字段。
关联右表
选择待关联的数据表。
右表分区字段
选择相应的ds字段,支持yyyymmdd与yyyy-mm-dd两种显示格式。
右表分析字段
选择需要分析的字段。
任务名称
可自定义名称。
Join字段
选择左右表一致的字段。
异常数据展示抽样条数
填入想要看到的异常数据条数,用于展示join失败的数据。
例如,10。
周期运行
否(默认):不对数据表进行周期分析,默认重跑任务的业务时间为7天。
是:设置周期运行时间,对数据表进行周期分析。
异常行为分析
参数
说明
分区字段
选择相应的ds字段,支持yyyymmdd与yyyy-mm-dd两种显示格式。
用户ID字段
选择能唯一区分用户的字段。
物品ID字段
选择能唯一区分物品的字段。
行为字段
选择区分不同行为事件的字段。
上游行为取值
输入待分析的上游行为事件,若有多个行为,中间用半角逗号(,)隔开
下游行为取值
输入待分析的下游行为事件,若有多个行为,中间用半角逗号(,)隔开
分桶数量
输入需要分桶的数量,用于对行为数据等距分段分析,统计每个分段中的用户分布。
周期运行
否(默认):不对数据表进行周期分析,默认重跑任务的业务时间为7天。
是:设置周期运行时间,对数据表进行周期分析。
单击保存并计算。
查看诊断报告
创建诊断任务后,在
的任务管理页签,单击目标诊断任务右侧的诊断报告,查看报告详情。如下诊断报告内容仅供参考,请以实际数据诊断结果为准。
基础统计分析
基础统计分析报告展示了每日的用户量、多个bigint特征从最大值、最小值、百分位数和频数统计等信息。
诊断结果显示空值率大于0.4,需要关注
city
字段。每日数据总量
唯一值统计,展示了每个字段中唯一值的数量。
百分位数统计,以年龄为例,95%的分位数是50岁,最大值是52岁,最小值是18岁。
直方图统计,把数据分为10个桶,看每个分桶中的数量。
Top10频数统计,以年龄为例,统计了年龄出现频数最多的前10个年龄。
频数百分位数,最大值是否与Top10频数统计的最多的一致。
物品或用户变化率分析
物品或用户变化率分析报告,展示了物品或用户在一段时间内的增加数量与减少数量,和增加率与减少率的变化。以分析用户表为例,报告分析了用户增加的数量与减少的数量,和用户的增加率与减少率的变化。
用户偏好统计周期分析
用户偏好统计周期分析报告,对用户的行为偏好进行了统计分析,展示了用户的留存情况。
两表关联分析
两表关联分析报告,对相关联的两个数据表中的数据进行了相关性的分析,展示了右表在左表中的关联率。
异常行为分析
异常行为分析报告,对上下游的行为进行分析,展示了是否有下游行为大于上游行为的异常。
异常比率低,说明下游行为没有大于上游行为的情况。
上游行为计数统计,统计了曝光的计数,分桶分为10个桶,X轴为上游行为计数的均值,Y轴为出现次数。下游行为计数统计同理。
转化率分析,把转化率分为10个区间,展示了每个区间的数量。
Top统计分析,是对上游行为、下游行为和转化率的前多少进行展示,可以知道相应的用户ID,后续可以对此进行更详细的分析。
查看任务日志
创建诊断任务后,可在
的任务日志页签,查看任务进度。单击目标任务右侧的查看日志,查看该任务的日志代码。
单击目标任务右侧的配置,查看该任务创建时的配置代码。