一、基础统计分析
选择任务类型:基础统计分析,选择相应的用户数据表,填写任务名称。
分区字段:选择相应的ds字段,分区字段显示有两种形式yyyymmdd与yyyy-mm-dd,可下拉选择显示的样式。
Tag字段:可选择需要分析到的字段(例如:city等)。
Tag字段分隔符:选择需要的Tag字段的分隔符(如:,)。
KV字段:选择为KV类型的字段(如:对用户偏好品类的描述,数码:0.9,家装:0.6,鞋服:0.3,……),会对key的数量以及value的分布进行分析,如若没有可以不选择。
KV字段分隔符:指定每组KV数据的分隔符(如:,)。
Text字段:选择Text类型的数据,(如:文章的标题、摘要等),如若没有标题可以不用选择。
字符串类型默认值:对字符串类型字段的数据设置默认值(如:"")。
字符串类型空值:指定了在何种取值下判断为空值,将用于空值数/率的统计(如:空格 )。
数据百分位分布:指定需要分析哪些位置的数据取值(如50%代表中位数),如查看多组数据以逗号隔开(如:25%,50%,75%,……),数据百分位分布默认统计的百分位数为:0%,1%,25%,50%,75%,99%,100%。
周期运行:默认选择否,如果不对数据表进行周期分析,此时点击保存并计算后,进入指定重跑任务的业务时间页面,业务时间默认为最近7天,如果想看到其他时间的数据选择相对应的时间即可,此时点击确定即可进行数据诊断任务;若需要进行周期任务,周期运行选择是,对周期运行任务进行配置。
统计特征的数据总量、取值数、空值数、特征取值的百分位数, 特征取值频数的的百分位数 (包括最大值, 最小值, 中位数) 统计特征的取值和取值频数的等距分桶 数据分布直方图。
常用于分析哪些字段适合作为模型特征,而缺失率高、取值异常的特征可以丢弃。
默认会对数据导入的全部字段进行分析
当字段类型为 float,double 时,作为连续值统计其取值;
当字段类型为 string,boolean 时,作为离散值统计其取值的频数;
当字段类型为 bigint,int 时,同时作为连续值和离散值统计,体现在会统计取值个数。
业务时间,是对落盘到对应日期分区内的数据,而非统计某一天操作写入的数据。
周期运行选择是时,会对用户偏好统计周期分析数据诊断任务的周期运行时间进行选择,选择每天运行的时间点击保存即可。
二、诊断报告
下面用demo数据演示了基础统计分析报告,其中展示了每天的用户量,展示了多个bigint特征从最大值最小值、百分位数、频数统计等多个角度的分析报表。
诊断结果中显示空值率大于0.4,需要关注city字段。
展示每天的数据总量
唯一值统计,展示了每个字段中唯一值的数量。
百分位数统计,以年龄为例,95%的分位数是50岁,最大值是52岁,最小值是18岁。
直方图统计,把数据分为10个桶,看每个分桶中的数量。
Top10频数统计,以年龄为例,统计了年龄出现频数最多的前10个年龄。
频数百分位数,最大值是否与Top10频数统计的最多的一致。
报告中有日期选择的只展示了一天的数据,如果查看其他天的数据需要手动选择日查看。
是否开启指数模式默认为不开启,需要手动开启数据即可展示指数形式。
默认会对数据导入的全部字段进行分析
当字段类型为 float,double 时,作为连续值统计其取值;
当字段类型为 string,boolean 时,作为离散值统计其取值的频数;
当字段类型为 bigint,int 时,同时作为连续值和离散值统计;
另外,string类型字段除对取值分析外,将同时对长度进行分析。