频繁模式统计函数可以在给定的多属性字段样本中,挖掘出具有一定代表性的属性组合,用来归纳当前日志。

pattern_stat

函数格式:
select pattern_stat(array[col1, col2, col3], array['col1_name', 'col2_name', 'col3_name'], array[col5, col6], array['col5_name', 'col6_name'], support_score, sample_ratio) 
参数说明如下:
参数 说明 取值
array[col1, col2, col3] 字符型数据的输入列。 数组形式,例如:array[clientIP, sourceIP, path, logstore]。
array['col1_name', 'col2_name', 'col3_name'] 字符型数据的输入列的对应名称。 数组形式,例如:array['clientIP', 'sourceIP', 'path', 'logstore']。
array[col5, col6] 数值型数据的输入列。 数组形式,例如:array[Inflow, OutFlow]。
array['col5_name', 'col6_name'] 数值型数据的输入列的对应名称。 数组形式,例如array['Inflow', 'OutFlow']。
support_score 样本在进行模式挖掘时的支持度。 double类型,取值为(0,1]。
sample_ratio 采样比率,默认为0.1,表示只拿10%全量集合。 double类型,取值为(0,1]。
示例:
  • 查询分析:
    * | select pattern_stat(array[ Category, ClientIP, ProjectName, LogStore, Method, Source, UserAgent ], array[ 'Category', 'ClientIP', 'ProjectName', 'LogStore', 'Method', 'Source', 'UserAgent' ], array[ InFlow, OutFlow ], array[ 'InFlow', 'OutFlow' ], 0.45, 0.3) limit 1000
  • 输出结果:

显示项如下:
显示项 说明
count 当前模式所含样本的数量。
support_score 当前模式的支持度。
pattern 模式的具体内容,按照条件查询的形式组织。