本工作流以广告CTR预测场景为例,为您介绍如何使用PAI提供的数据挖掘组件进行离线调度。
背景信息
本工作流流程如下:
- 通过历史数据,在阿里云机器学习平台上进行模型训练。
- 通过大数据开发套件对模型进行调度。
- 每天凌晨对广告投放进行CTR预测,甄选出符合标准的广告进行推送。
本工作流数据集是通过Random算法随机生成的,因此不对工作流结果进行评估,仅介绍如何构建工作流及大数据开发套件调度。
数据集
本工作流训练数据集包括2016年09月19日和2016年09月20日的历史数据,针对2016年09月21日的数据进行预测,使用MaxCompute分区表。数据集的具体字段如下。
本工作流数据表ad的示例如下。
字段名 | 类型 | 描述 |
---|---|---|
id | STRING | 广告的唯一标识。 |
age | DOUBLE | 广告投放人群的年龄。 |
sex | DOUBLE | 广告投放人群的性别。1表示男性,0表示女性。 |
duration | DOUBLE | 广告在界面的停留时长,单位为秒。 |
place | DOUBLE | 广告投放位置,按照投放位置从上到下的顺序依次为0~4。 |
ctr | DOUBLE | 广告CTR。如果广告点击量除以展现量的结果大于0.03,则该参数取值为1,反之为0。 |
dt | STRING | 年月日,格式为YYYYMMDD。 |

步骤一:创建工作流
- 新建自定义工作流,并进入工作流,详情请参见新建自定义工作流。
- 构建工作流的流程。
- 配置组件参数。
- 单击画布左上方的运行。
- 工作流运行结束后,右键单击画布中的ad_result-1,在快捷菜单,单击查看数据即可查看预测生成的结果表,如下图所示。
其中prediction_result表示每个广告ID是否被点击(1表示被点击,0表示未被点击),prediction_score表示对应被点击的概率。