全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 智能硬件
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 更多
阿里云机器学习

离线调度说明

更新时间:2018-05-02 14:59:45

背景

本文实现的是广告CTR预测的场景。广告CTR预测是广告行业的典型应用,通过历史数据训练预测模型,对于每天的增量数据进行预测,找出广告的CTR符合标准的样本进行投放。
整套实验使用了阿里云机器学习进行数据挖掘,通过大数据开发套件进行调度和推送。具体的业务场景是:

  • 通过历史数据在阿里云机器学习平台上进行模型训练。
  • 通过大数据开发套件对模型进行调度。
  • 每天凌晨对广告投放进行CTR预测,甄选出符合标准的广告进行推送。

数据集介绍

具体字段如下表。

字段名 含义 类型 描述
id ID string 广告的唯一标识
age 年龄 double 广告投放人群的年龄
sex 性别 double 广告投放人群的性别,1代表男,0代表女
duration 时长 double 广告在界面的停留时长,以秒为单位
place 位置 double 广告投放位置,0~4,按照投放位置从上到下的顺序排列
ctr 广告CTR double 广告点击量除以展现量,大于0.03是1,其它是0
dt partition string 年月日,格式为yyyyMMdd

如下图所示,数据是通过random算法随机生成,所以本次实验不针对结果进行评估,主要介绍实验搭建以及和大数据开发套件的调度使用。数据包含20160919、20160920的历史数据,需要针对20160921的数据预测。使用的是MaxCompute的分区表。

实验搭建

实验流程图如下。

实验可以大致分为四个模块,数据源导入(ad),数据预处理(归一化),模型训练(逻辑回归二分类),预测(预测)。

1. 数据源导入

2. 中间过程

中间过程包括数据归一化和模型训练两个步骤。模型训练是通过历史数据训练生成的预测模型。(详细原理可以参考心脏病预测案例

3. 预测

预测生成的结果表为“ad_result-1”,数据如下图所示。

  • prediction_result:每个广告id是否被点击。1表示被点击,0表示不被点击。
  • prediction_score:对应被点击概率。

模块调度

1. 进入大数据开发套件工作空间

进入控制台首页,单击DataWorks,进入大数据开发工作空间。
image

大数据开发套件与机器学习平台共用一套项目,选择需要调度的实验所在的项目,单击进入数据开发
image

2. 新建节点调度任务

单击新建并选择新建任务

在新建任务的配置中,任务类型选择节点任务类型选择机器学习

3. 配置调度任务

建立了节点任务之后,选择需要调度的机器学习实验,并在右边的配置栏选择需要调度的时间,本实验选择每日的凌晨0点进行训练和推送信息。
image

单击提交。提交的作业从第二天开始生效。
image

4. 查询任务日志

提交调度任务之后,单击前往运维查看日志。
image

本文导读目录