数据诊断

一、数据诊断

在数据表创建完毕后,就可进行数据诊断任务

进入数据诊断页面,在任务管理页面中点击新增诊断任务,创建数据诊断任务

image.pngimage.png

数据诊断有五种诊断类型物品或用户变化率分析用户偏好统计周期分析两表关联分析基础统计分析异常行为分析。

任务类型

说明

物品或用户变化率分析

按照用户或物品的ID维度,统计每日的增加和减少的数量以及比例。

用户偏好统计周期分析

期望通过调整k找到曾现率是80%或者90%的k'值,用于后续特征工程计算用户偏好特征和统计训练样本天数。当k'天的曾现率低于90%,则对于剩下的10%用户需要考虑冷启动策略。

两表关联分析

用于检查行为数据的可用性、id唯一性,特征是否可用等。

基础统计分析

用于分析哪些字段适合作为模型特征,而缺失率高、取值异常的特征可以丢弃。

异常行为分析

在 用户(user)/物品(item)/用户-物品对(pair) 粒度下, 对上下游行为计数, 并统计转化率, 并统计不同粒度下的异常率, 以及上述统计指标的分布.

二、任务日志

image.png

在创建完诊断任务后,可在数据诊断页面中的任务日志点击右侧刷新按钮看到任务的进度,同时日志页面还可以查看任务的日志代码和在创建任务时的配置代码。

重要

一个业务时间为一行日志,如果选了7天的数据就是7行。

image.pngimage.png

三、诊断报告查看

查看诊断报告在数据诊断页面每一个任务后的操作栏中点击诊断报告即可查看。

image.png

点击进入诊断报告页面,页面中会显示此报告的类型、任务名称与用到数据表,时间窗口默认选择为近14天的时间,显示日期为近14天的日期间隔(如:2023-08-22至2023-09-05,不包括当天的日期),也可选择近7天的窗口时间。如果需要查看其它时间间隔报告可在时间栏中选择需要的时间日期,同时页面加载完毕后已告知最近14天中数据中缺少数据的时间窗口日期,若数据表中已补全数据则可点击创建重跑任务,进入创建重跑任务页面,其中的任务类型、数据表、任务名称与重跑日期以默认设置号,无需修改,点击确定即可重跑当前数据诊断任务;如若不需要补全数据点击忽略即可查看当前任务诊断报告。

如若选择时间窗口为最近7天,点击开始诊断后,页面中会显示此段时间中缺少数据的时间窗口日期,此时选择操作区刚进入页面默认加载最近14天数据操作一致。

image.pngimage.png