AutofeExperimentConfiguration数据结构参数参考-人工智能平台 PAI-阿里云

名称	类型	描述	示例值
	object	AutoFE 实验配置信息
oss_config	object	oss 配置
oss_bucket	string	oss_bucket 名称	autofe-service
oss_access_id	string	oss access id	Ltx***yw
oss_access_key	string	oss access key	Tc***Mu
oss_role_arn	string	PAIAutoML 服务关联角色。填写该值后，可不提供 ak/sk。	acs:ram::xxx:role/aliyunserviceroleforpaiautoml
oss_endpoint	string	oss endpoint	oss-cn-beijing.aliyuncs.com
odps_config	object	MaxCompute 配置
odps_region_id	string	odps 区域 id	cn-beijing
odps_project_name	string	odps 项目名称	pai_rec
odps_endpoint	string	odps endpoint	http://service.cn-beijing.maxcompute.aliyun.com/api
odps_access_id	string	odps access id	Ltx***yw
odps_access_key	string	odps access key	Tc***Mu
odps_role_arn	string	PAIAutoML 服务关联角色。填写该值后，可不提供 ak/sk。	acs:ram::xxx:role/aliyunserviceroleforpaiautoml
yml_config	object	AutoFE 运行时配置
workspace_name	string	工作空间名称	my_workspace_1
output_config_oss_dir	string	运行任务时动态配置的输出路径	oss://bucket_name/folder/
label	string	输入数据的 label 列名称	label列名称，如is_click
data_source	string	数据源名称	MaxCompute表名，如ad_click_table_name
data_type	string	数据类型	odps / oss
aggregate_only	string	是否只进行统计类的特征加工及选择。如选择 False，则同时会进行四则运算类的特征加工及选择。	true / false
reuse_results	string	是否重用中间结果	false
workers	string	自动特征工程中需要使用的 worker 数量	10
memory	string	特征工程中每个 Worker 内存使用量	4000
cpu	string	特征工程中每个 Worker cpu 使用量	2
debug_mode	string	是否启用 debug 模式	false
action	string	实验进行的操作，可选值包括：`fs_train`，`train`， `analyze`， `pipeline`， `selection`， `transform`。	fs_train
sample_size	string	当输入数据量过大时，需要提供采样数据量	e.g., 5000000，表示对数据采样5000000行，作为自动特征工程的输入。
analyze_exp_id	string	特征分析实验的 id。该 id 仅在已经进行过数据分析的场景下使用，如果是首次进行自动特征工程，不需要提供该参数。	特征分析实验id，如sRudaBC
data_partition	string	数据分区	ds=20230720
exclude_columns	string	需要忽略的列名称。有某些 id 列，某些不需要参与特征工程的列。	c1,c2,c3
feature_selection	string	是否利用特征选择结果做特征分析	true
selection_exp_id	string	特征选择实验 id	特征选择实验id，如sRudaBC
pipeline_exp_id	string	pipeline 训练实验 id	pipeline训练实验id，如sRudaBC
sample_ratio	string	当输入数据量过大时，可以提供采样比例。	0~1之间的小数，采样比例。sample_size / sample_ratio 提供一个即可。
filter_thresh	string	低频特征过滤阈值	10
skip_select	string	输出特征是否包含全部原始特征	true
iv_thresh	string	在特征选择过程中使用了 Information value 作为，特征过滤依据。iv_thresh 为 information value 的阈值，低于该值，则特征会标过滤掉。推荐使用 0.02。	0.02