使用特征工程提取特征数据-人工智能平台 PAI(PAI)-阿里云帮助中心

通过推荐算法定制生成的特征工程，对原始数据集（包括用户表、物料表和行为表等）进行处理，并生成新的特征表，以供后续的召回和排序使用。

前提条件

为了演示以下特征工程，本数据使用脚本模拟构造生成用户（user）表、物料（item）表和行为（behavior）表，并非真实数据集。

在Designer页面，单击预置模板页签。
在模板列表的推荐解决方案-特征工程区域，单击创建。
在新建工作流对话框，配置参数（可以全部使用默认参数）。
其中： 工作流数据存储配置为OSS Bucket路径，用于存储工作流运行中产出的临时数据和模型。
单击确定。
您需要等待大约十秒钟，工作流可以创建成功。
在工作流列表，双击推荐解决方案-特征工程工作流，进入工作流。

系统根据预置的模板，自动构建工作流，如下图所示。

节点	描述
1	物料表预处理：将Tag特征分隔符替换为`chr(29)`供后续特征生成步骤（FG）使用。产出是否是新上架物料的特征。
2	行为表预处理：产出day_h、week_day等行为时间的衍生特征。
3	用户表预处理：产出是否是新注册用户的特征。将Tag特征分隔符替换为`chr(29)`供后续特征生成步骤（FG）使用。
4	关联行为表、用户表和物料表，形成带统计属性的行为日志宽表。
5	生成物料特征表，包含一段时间的物料统计特征： `item__{event}_cnt_{N}d`：N天内该物料上发生某行为的数目，表征物料热门程度。 `item__{event}_{itemid}_dcnt_{N}d`：N天内该物料上发生某行为的唯一用户数，表征物料热门程度。 `item__{min\|max\|avg\|sum}_{field}_{N}d`：N天内发生在该物料的正向行为中，用户某数值属性上的统计分布，表征物料被哪种数值属性的用户偏好。 `item__kv_{cate}_{event}_{N}d`：N天内发生在该物料上的某行为中，用户某类目属性的统计，表征物料被哪种类目属性的用户偏好。
6	生成用户特征表，包含一段时间的用户统计特征。

新建业务流程。具体操作，请参见创建业务流程。
右键单击新建的业务流程下的MaxCompute，选择新建资源>Python，新建一个名称为count_cates_kvs.py的python脚本资源。具体操作，请参见创建并使用MaxCompute资源。
右键单击新建的业务流程下的MaxCompute，选择新建函数。新建一个名称为COUNT_CATES_KVS的MaxCompute函数。其中类名配置为count_cates_kvs.CountCatesKVS，资源列表配置为count_cates_kvs.py。具体操作，请参见创建并使用自定义函数。

说明

本数据集默认使用的是45天的数据，将会运行较长时间。如果希望更快地完成运行，需要进行如下操作：

更新执行时间窗口参数，使用更少时间内的数据。
- 分别单击以下节点，将右侧参数设置页签的执行时间窗口参数由默认的(-45,0]改为(-9,0]：
  - 1_rec_sln_demo_item_table_preprocess_v2
  - 2_rec_sln_demo_behavior_table_preprocess_ v2
  - 3_rec_sln_demo_user_table_preprocess_v2
  - 4_rec_sln_demo_behavior_table_preprocess_wide_v2
- 分别单击以下节点，将右侧参数设置页签的执行时间窗口参数由默认的(-31,0]改为(-8,0]：
  - 5_rec_sln_demo_item_table_preprocess_all_feature_v2
  - 6_rec_sln_demo_user_table_preprocess_all_feature_v2
修改SQL脚本代码，选取一部分用户。
- 单击节点2_rec_sln_demo_behavior_table_preprocess_ v2，将右侧参数设置页签的SQL脚本参数配置代码的第32行由WHERE ds = '${pai.system.cycledate}' 改为WHERE ds = '${pai.system.cycledate}' and user_id %10=1。
- 单击节点3_rec_sln_demo_user_table_preprocess_v2，将右侧参数设置页签的SQL脚本参数配置代码的第38行由WHERE ds = '${pai.system.cycledate}' 改为WHERE ds = '${pai.system.cycledate}' and user_id %10=1。