异常检测用于检测连续值和枚举值类特征的数据,帮助您挖掘数据中的异常点。

背景信息

异常检测的方法包括箱型图(Box-plot)和AVF(Attribute Value Frequency):
  • 箱型图用于检测连续值类特征的数据,根据箱线图最大值和最小值检测异常特征。trs
  • AVF用于检测枚举值类特征的数据,根据枚举特征的取值频率及阈值检测异常特征。

组件配置

  • 可视化方式
    页签 参数 描述
    字段设置 特征列 选择需要分析的字段。
    异常检测方法 选择检测的方法。箱型图用于检测连续类特征。AVF用于检测枚举类特征。
  • PAI命令
    PAI -name fe_detect_runner -project algo_public
         -DselectedCols="emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m,nr_employed" \
         -Dlifecycle="28"
         -DdetectStrategy="boxPlot"
         -DmodelTable="pai_temp_2458_23565_2"
         -DinputTable="pai_bank_data"
         -DoutputTable="pai_temp_2458_23565_1";
    参数名称 参数描述 是否必选
    inputTable 输入表的表名。
    inputTablePartitions 系统默认选择所有分区。指定输入表的分区:
    • 指定单个分区,格式为partition_name=value
    • 指定多个分区,格式为name1=value1,name2=value2
      说明 多个分区之间用英文逗号(,)分隔。
    • 指定多级分区,格式为name1=value1/name2=value2
    selectedCols 输入特征,字段类型没有限制。
    detectStrategy 系统支持Box-plot和AVF选项。Box-plot用于检测连续值类特征。AVF用于检测枚举值类特征。
    outputTable 异常检测结果数据集,即检测到异常特征的数据集。
    modelTable 异常检测模型。
    lifecycle 输出表的生命周期,系统默认为7。
    coreNum 节点个数,与参数memSizePerCore配对使用,取值范围[1,9999]。
    说明 仅支持配置正整数。
    memSizePerCore 单个结点内存大小,取值范围[2048,64 *1024],单位MB。