AutofeExperimentConfiguration

名称类型描述示例值
object

AutoFE 实验配置信息

oss_configobject

oss 配置

oss_bucketstring

oss_bucket 名称

autofe-service
oss_access_idstring

oss access id

Ltx***yw
oss_access_keystring

oss access key

Tc***Mu
oss_role_arnstring

PAIAutoML 服务关联角色。填写该值后,可不提供 ak/sk。

acs:ram::xxx:role/aliyunserviceroleforpaiautoml
oss_endpointstring

oss endpoint

oss-cn-beijing.aliyuncs.com
odps_configobject

MaxCompute 配置

odps_region_idstring

odps 区域 id

cn-beijing
odps_project_namestring

odps 项目名称

pai_rec
odps_endpointstring

odps endpoint

http://service.cn-beijing.maxcompute.aliyun.com/api
odps_access_idstring

odps access id

Ltx***yw
odps_access_keystring

odps access key

Tc***Mu
odps_role_arnstring

PAIAutoML 服务关联角色。填写该值后,可不提供 ak/sk。

acs:ram::xxx:role/aliyunserviceroleforpaiautoml
yml_configobject

AutoFE 运行时配置

workspace_namestring

工作空间名称

my_workspace_1
output_config_oss_dirstring

运行任务时动态配置的输出路径

oss://bucket_name/folder/
labelstring

输入数据的 label 列名称

label列名称,如is_click
data_sourcestring

数据源名称

MaxCompute表名,如ad_click_table_name
data_typestring

数据类型

odps / oss
aggregate_onlystring

是否只进行统计类的特征加工及选择。如选择 False,则同时会进行四则运算类的特征加工及选择。

true / false
reuse_resultsstring

是否重用中间结果

false
workersstring

自动特征工程中需要使用的 worker 数量

10
memorystring

特征工程中每个 Worker 内存使用量

4000
cpustring

特征工程中每个 Worker cpu 使用量

2
debug_modestring

是否启用 debug 模式

false
actionstring

实验进行的操作,可选值包括:fs_traintrainanalyzepipelineselectiontransform

fs_train
sample_sizestring

当输入数据量过大时,需要提供采样数据量

e.g., 5000000,表示对数据采样5000000行,作为自动特征工程的输入。
analyze_exp_idstring

特征分析实验的 id。该 id 仅在已经进行过数据分析的场景下使用,如果是首次进行自动特征工程,不需要提供该参数。

特征分析实验id, 如sRudaBC
data_partitionstring

数据分区

ds=20230720
exclude_columnsstring

需要忽略的列名称。有某些 id 列,某些不需要参与特征工程的列。

c1,c2,c3
feature_selectionstring

是否利用特征选择结果做特征分析

true
selection_exp_idstring

特征选择实验 id

特征选择实验id, 如sRudaBC
pipeline_exp_idstring

pipeline 训练实验 id

pipeline训练实验id,如sRudaBC
sample_ratiostring

当输入数据量过大时,可以提供采样比例。

0~1之间的小数,采样比例。sample_size / sample_ratio 提供一个即可。
filter_threshstring

低频特征过滤阈值

10
skip_selectstring

输出特征是否包含全部原始特征

true
iv_threshstring

在特征选择过程中使用了 Information value 作为,特征过滤依据。iv_thresh 为 information value 的阈值,低于该值,则特征会标过滤掉。推荐使用 0.02。

0.02