异常检测用于检测连续值和枚举值类特征的数据,帮助您挖掘数据中的异常点。

背景信息

异常检测的方法包括箱型图(Box-plot)和AVF(Attribute Value Frequency):
  • 箱型图用于检测连续值类特征的数据,根据箱线图最大值和最小值检测异常特征。
  • AVF用于检测枚举值类特征的数据,根据枚举特征的取值频率及阈值检测异常特征。

组件配置

您可以使用以下任意一种方式,配置异常检测组件参数。

方式一:可视化方式

在PAI-Designer(原PAI-Studio)工作流页面配置组件参数。
页签 参数 描述
字段设置 特征列 选择需要分析的字段。
异常检测方法 选择检测的方法。箱型图用于检测连续类特征。AVF用于检测枚举类特征。

方式二:PAI命令方式

使用PAI命令方式,配置该组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见SQL脚本
PAI -name fe_detect_runner -project algo_public
     -DselectedCols="emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m,nr_employed" \
     -Dlifecycle="28"
     -DdetectStrategy="boxPlot"
     -DmodelTable="pai_temp_2458_23565_2"
     -DinputTable="pai_bank_data"
     -DoutputTable="pai_temp_2458_23565_1";
参数名称 参数描述 是否必选
inputTable 输入表的表名。
inputTablePartitions 系统默认选择所有分区。指定输入表的分区:
  • 指定单个分区,格式为partition_name=value
  • 指定多个分区,格式为name1=value1,name2=value2
    说明 多个分区之间用英文逗号(,)分隔。
  • 指定多级分区,格式为name1=value1/name2=value2
selectedCols 输入特征,字段类型没有限制。
detectStrategy 系统支持Box-plot和AVF选项。Box-plot用于检测连续值类特征。AVF用于检测枚举值类特征。
outputTable 异常检测结果数据集,即检测到异常特征的数据集。
modelTable 异常检测模型。
lifecycle 输出表的生命周期,系统默认为7。
coreNum 节点个数,与参数memSizePerCore配对使用,取值范围[1,9999]。
说明 仅支持配置正整数。
memSizePerCore 单个结点内存大小,取值范围[2048,64 *1024],单位MB。