两表关联分析

一、两表关联分析

image.pngimage.png

选择任务类型:两表关联分析。

关联左表:选择相应的待关联的数据表,左表一般为行为表。

左表分区字段:选择相应的ds字段,分区字段显示有两种形式yyyymmddyyyy-mm-dd,可下拉选择显示的样式。

左表分析字段:选择需要分析的字段。

关联右表:选择相应的待关联的数据表。

右表分区字段:选择相应的ds字段,分区字段显示有两种形式yyyymmddyyyy-mm-dd,可下拉选择显示的样式。

右表分析字段:选择需要分析的字段。

任务名称:自定义输入即可。

Join字段:选择左右表一致的字段(如:若右表为用户表则可选择user_id字段)。

异常数据展示抽样条数:填入想要看到的异常数据条数(如:10),用于展示join失败的数据。

周期运行:默认选择否,如果不对数据表进行周期分析,此时点击保存并计算后,进入指定重跑任务的业务时间页面,业务时间默认为最近7天,如果想看到其他时间的数据选择相对应的时间即可,此时点击确定即可进行数据诊断任务;若需要进行周期任务,周期运行选择是,对周期运行任务进行配置。

说明
  • 根据用户行为(左边)+用户或者物品数据(右边),通过id字段进行Join,从而区分出已关联、未关联的两部分数据。 根据某左表/右表,统计未关联的比例,即关联异常比例;根据表中某个分析字段,统计未关联、已关联的数据分布、维度分析。

  • 常用于检查行为数据的可用性、id唯一性,特征是否可用等。

重要

业务时间,是对落盘到对应日期分区内的数据,而非统计某一天操作写入的数据。

image.png

周期运行选择时,会对用户偏好统计周期分析数据诊断任务的周期运行时间进行选择,选择每天运行的时间点击保存即可。

二、诊断报告

image.pngimage.pngimage.png

两表关联分析报告,对相关联的两个数据表中的数据进行了相关性的分析,展示了右表在左表中的关联率。

image.pngimage.png

左表与右表维度分析中的日期选择可以下拉选择需要查看的日期,查看选择日期当天的关联情况。