| 名称 | 类型 | 描述 | 示例值 |
|---|---|---|---|
| object | AutoFE 实验配置信息 | ||
| oss_config | object | oss 配置 | |
| oss_bucket | string | oss_bucket 名称 | autofe-service |
| oss_access_id | string | oss access id | Ltx***yw |
| oss_access_key | string | oss access key | Tc***Mu |
| oss_role_arn | string | PAIAutoML 服务关联角色。填写该值后,可不提供 ak/sk。 | acs:ram::xxx:role/aliyunserviceroleforpaiautoml |
| oss_endpoint | string | oss endpoint | oss-cn-beijing.aliyuncs.com |
| odps_config | object | MaxCompute 配置 | |
| odps_region_id | string | odps 区域 id | cn-beijing |
| odps_project_name | string | odps 项目名称 | pai_rec |
| odps_endpoint | string | odps endpoint | http://service.cn-beijing.maxcompute.aliyun.com/api |
| odps_access_id | string | odps access id | Ltx***yw |
| odps_access_key | string | odps access key | Tc***Mu |
| odps_role_arn | string | PAIAutoML 服务关联角色。填写该值后,可不提供 ak/sk。 | acs:ram::xxx:role/aliyunserviceroleforpaiautoml |
| yml_config | object | AutoFE 运行时配置 | |
| workspace_name | string | 工作空间名称 | my_workspace_1 |
| output_config_oss_dir | string | 运行任务时动态配置的输出路径 | oss://bucket_name/folder/ |
| label | string | 输入数据的 label 列名称 | label列名称,如is_click |
| data_source | string | 数据源名称 | MaxCompute表名,如ad_click_table_name |
| data_type | string | 数据类型 | odps / oss |
| aggregate_only | string | 是否只进行统计类的特征加工及选择。如选择 False,则同时会进行四则运算类的特征加工及选择。 | true / false |
| reuse_results | string | 是否重用中间结果 | false |
| workers | string | 自动特征工程中需要使用的 worker 数量 | 10 |
| memory | string | 特征工程中每个 Worker 内存使用量 | 4000 |
| cpu | string | 特征工程中每个 Worker cpu 使用量 | 2 |
| debug_mode | string | 是否启用 debug 模式 | false |
| action | string | 实验进行的操作,可选值包括: | fs_train |
| sample_size | string | 当输入数据量过大时,需要提供采样数据量 | e.g., 5000000,表示对数据采样5000000行,作为自动特征工程的输入。 |
| analyze_exp_id | string | 特征分析实验的 id。该 id 仅在已经进行过数据分析的场景下使用,如果是首次进行自动特征工程,不需要提供该参数。 | 特征分析实验id, 如sRudaBC |
| data_partition | string | 数据分区 | ds=20230720 |
| exclude_columns | string | 需要忽略的列名称。有某些 id 列,某些不需要参与特征工程的列。 | c1,c2,c3 |
| feature_selection | string | 是否利用特征选择结果做特征分析 | true |
| selection_exp_id | string | 特征选择实验 id | 特征选择实验id, 如sRudaBC |
| pipeline_exp_id | string | pipeline 训练实验 id | pipeline训练实验id,如sRudaBC |
| sample_ratio | string | 当输入数据量过大时,可以提供采样比例。 | 0~1之间的小数,采样比例。sample_size / sample_ratio 提供一个即可。 |
| filter_thresh | string | 低频特征过滤阈值 | 10 |
| skip_select | string | 输出特征是否包含全部原始特征 | true |
| iv_thresh | string | 在特征选择过程中使用了 Information value 作为,特征过滤依据。iv_thresh 为 information value 的阈值,低于该值,则特征会标过滤掉。推荐使用 0.02。 | 0.02 |
该文章对您有帮助吗?