异常检测

更新时间:2024-12-25 09:59:09

异常检测用于检测连续值和枚举值类特征的数据,帮助您挖掘数据中的异常点。异常检测用于识别数据集中与正常模式显著不同的数据点或模式,适用于连续值和枚举值类特征的数据。通过检测和分析这些异常点,可帮助用户挖掘潜在的错误、欺诈或其他异常事件,提高数据分析的准确性和可靠性。

组件配置

方式一:可视化方式

Designer工作流页面添加异常检测组件,并在界面右侧配置相关参数:

参数

描述

参数

描述

特征列

指定要进行异常检测的特征列。

异常检测方法

选择检测的方法,取值:

  • 箱型图:用于检测连续值类特征的数据,根据箱线图最大值和最小值检测异常特征。

  • Attribute Value Frequency:用于检测枚举值类特征的数据,根据枚举特征的取值频率及阈值检测异常特征。

方式二:PAI命令方式

使用PAI命令配置异常检测组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见场景4:在SQL脚本组件中执行PAI命令

PAI -name fe_detect_runner -project algo_public
     -DselectedCols="emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m,nr_employed" \
     -Dlifecycle="28"
     -DdetectStrategy="boxPlot"
     -DmodelTable="pai_temp_2458_23565_2"
     -DinputTable="pai_bank_data"
     -DoutputTable="pai_temp_2458_23565_1";

参数名称

是否必选

参数描述

参数名称

是否必选

参数描述

inputTable

输入表的表名。

inputTablePartitions

系统默认选择所有分区。指定输入表的分区:

  • 指定单个分区,格式为partition_name=value

  • 指定多个分区,格式为name1=value1,name2=value2,多个分区之间用英文逗号(,)分隔。

  • 指定多级分区,格式为name1=value1/name2=value2

selectedCols

输入特征,字段类型没有限制。

detectStrategy

系统支持Box-plotAVF选项。Box-plot用于检测连续值类特征。AVF用于检测枚举值类特征。

outputTable

异常检测结果数据集,即检测到异常特征的数据集。

modelTable

异常检测模型。

lifecycle

输出表的生命周期,系统默认为7。

coreNum

节点个数,与参数memSizePerCore配对使用,取值范围[1,9999]。

memSizePerCore

单个结点内存大小,取值范围[2048,64 *1024],单位MB。

  • 本页导读 (1)
  • 组件配置
  • 方式一:可视化方式
  • 方式二:PAI命令方式
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等