异常检测用于检测连续值和枚举值类特征的数据,帮助您挖掘数据中的异常点。异常检测用于识别数据集中与正常模式显著不同的数据点或模式,适用于连续值和枚举值类特征的数据。通过检测和分析这些异常点,可帮助用户挖掘潜在的错误、欺诈或其他异常事件,提高数据分析的准确性和可靠性。
组件配置
方式一:可视化方式
在Designer工作流页面添加异常检测组件,并在界面右侧配置相关参数:
参数 | 描述 |
参数 | 描述 |
特征列 | 指定要进行异常检测的特征列。 |
异常检测方法 | 选择检测的方法,取值:
|
方式二:PAI命令方式
使用PAI命令配置异常检测组件参数。您可以使用SQL脚本组件进行PAI命令调用,详情请参见场景4:在SQL脚本组件中执行PAI命令。
PAI -name fe_detect_runner -project algo_public
-DselectedCols="emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m,nr_employed" \
-Dlifecycle="28"
-DdetectStrategy="boxPlot"
-DmodelTable="pai_temp_2458_23565_2"
-DinputTable="pai_bank_data"
-DoutputTable="pai_temp_2458_23565_1";
参数名称 | 是否必选 | 参数描述 |
参数名称 | 是否必选 | 参数描述 |
inputTable | 是 | 输入表的表名。 |
inputTablePartitions | 否 | 系统默认选择所有分区。指定输入表的分区:
|
selectedCols | 是 | 输入特征,字段类型没有限制。 |
detectStrategy | 是 | 系统支持Box-plot和AVF选项。Box-plot用于检测连续值类特征。AVF用于检测枚举值类特征。 |
outputTable | 是 | 异常检测结果数据集,即检测到异常特征的数据集。 |
modelTable | 是 | 异常检测模型。 |
lifecycle | 否 | 输出表的生命周期,系统默认为7。 |
coreNum | 否 | 节点个数,与参数memSizePerCore配对使用,取值范围[1,9999]。 |
memSizePerCore | 否 | 单个结点内存大小,取值范围[2048,64 *1024],单位MB。 |
- 本页导读 (1)
- 组件配置
- 方式一:可视化方式
- 方式二:PAI命令方式