名称 | 类型 | 描述 | 示例值 |
---|---|---|---|
object | AutoFE 实验配置信息 | ||
oss_config | object | oss 配置 | |
oss_bucket | string | oss_bucket 名称 | autofe-service |
oss_access_id | string | oss access id | Ltx***yw |
oss_access_key | string | oss access key | Tc***Mu |
oss_role_arn | string | PAIAutoML 服务关联角色。填写该值后,可不提供 ak/sk。 | acs:ram::xxx:role/aliyunserviceroleforpaiautoml |
oss_endpoint | string | oss endpoint | oss-cn-beijing.aliyuncs.com |
odps_config | object | MaxCompute 配置 | |
odps_region_id | string | odps 区域 id | cn-beijing |
odps_project_name | string | odps 项目名称 | pai_rec |
odps_endpoint | string | odps endpoint | http://service.cn-beijing.maxcompute.aliyun.com/api |
odps_access_id | string | odps access id | Ltx***yw |
odps_access_key | string | odps access key | Tc***Mu |
odps_role_arn | string | PAIAutoML 服务关联角色。填写该值后,可不提供 ak/sk。 | acs:ram::xxx:role/aliyunserviceroleforpaiautoml |
yml_config | object | AutoFE 运行时配置 | |
workspace_name | string | 工作空间名称 | my_workspace_1 |
output_config_oss_dir | string | 运行任务时动态配置的输出路径 | oss://bucket_name/folder/ |
label | string | 输入数据的 label 列名称 | label列名称,如is_click |
data_source | string | 数据源名称 | MaxCompute表名,如ad_click_table_name |
data_type | string | 数据类型 | odps / oss |
aggregate_only | string | 是否只进行统计类的特征加工及选择。如选择 False,则同时会进行四则运算类的特征加工及选择。 | true / false |
reuse_results | string | 是否重用中间结果 | false |
workers | string | 自动特征工程中需要使用的 worker 数量 | 10 |
memory | string | 特征工程中每个 Worker 内存使用量 | 4000 |
cpu | string | 特征工程中每个 Worker cpu 使用量 | 2 |
debug_mode | string | 是否启用 debug 模式 | false |
action | string | 实验进行的操作,可选值包括: | fs_train |
sample_size | string | 当输入数据量过大时,需要提供采样数据量 | e.g., 5000000,表示对数据采样5000000行,作为自动特征工程的输入。 |
analyze_exp_id | string | 特征分析实验的 id。该 id 仅在已经进行过数据分析的场景下使用,如果是首次进行自动特征工程,不需要提供该参数。 | 特征分析实验id, 如sRudaBC |
data_partition | string | 数据分区 | ds=20230720 |
exclude_columns | string | 需要忽略的列名称。有某些 id 列,某些不需要参与特征工程的列。 | c1,c2,c3 |
feature_selection | string | 是否利用特征选择结果做特征分析 | true |
selection_exp_id | string | 特征选择实验 id | 特征选择实验id, 如sRudaBC |
pipeline_exp_id | string | pipeline 训练实验 id | pipeline训练实验id,如sRudaBC |
sample_ratio | string | 当输入数据量过大时,可以提供采样比例。 | 0~1之间的小数,采样比例。sample_size / sample_ratio 提供一个即可。 |
filter_thresh | string | 低频特征过滤阈值 | 10 |
skip_select | string | 输出特征是否包含全部原始特征 | true |
iv_thresh | string | 在特征选择过程中使用了 Information value 作为,特征过滤依据。iv_thresh 为 information value 的阈值,低于该值,则特征会标过滤掉。推荐使用 0.02。 | 0.02 |
该文章对您有帮助吗?