异常检测

异常检测用于检测连续值和枚举值类特征的数据,帮助您挖掘数据中的异常点。

背景信息

异常检测的方法包括箱型图(Box-plot)和AVF(Attribute Value Frequency):

  • 箱型图用于检测连续值类特征的数据,根据箱线图最大值和最小值检测异常特征。

  • AVF用于检测枚举值类特征的数据,根据枚举特征的取值频率及阈值检测异常特征。

组件配置

您可以使用以下任意一种方式,配置异常检测组件参数。

方式一:可视化方式

Designer工作流页面配置组件参数。

页签

参数

描述

字段设置

特征列

选择需要分析的字段。

异常检测方法

选择检测的方法。箱型图用于检测连续类特征。AVF用于检测枚举类特征。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本

PAI -name fe_detect_runner -project algo_public
     -DselectedCols="emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m,nr_employed" \
     -Dlifecycle="28"
     -DdetectStrategy="boxPlot"
     -DmodelTable="pai_temp_2458_23565_2"
     -DinputTable="pai_bank_data"
     -DoutputTable="pai_temp_2458_23565_1";

参数名称

参数描述

是否必选

inputTable

输入表的表名。

inputTablePartitions

系统默认选择所有分区。指定输入表的分区:

  • 指定单个分区,格式为partition_name=value

  • 指定多个分区,格式为name1=value1,name2=value2

    说明

    多个分区之间用英文逗号(,)分隔。

  • 指定多级分区,格式为name1=value1/name2=value2

selectedCols

输入特征,字段类型没有限制。

detectStrategy

系统支持Box-plotAVF选项。Box-plot用于检测连续值类特征。AVF用于检测枚举值类特征。

outputTable

异常检测结果数据集,即检测到异常特征的数据集。

modelTable

异常检测模型。

lifecycle

输出表的生命周期,系统默认为7。

coreNum

节点个数,与参数memSizePerCore配对使用,取值范围[1,9999]。

说明

仅支持配置正整数。

memSizePerCore

单个结点内存大小,取值范围[2048,64 *1024],单位MB。