全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网
DataWorks(数据工场)

步骤1:数据准备

更新时间:2017-11-07 11:49:22

本示例假设 用户 > 品牌信息(源数据表) 存储在业务方的 RDS 上,进而利用 DataWorks(数据工场,原大数据开发套件)进行数据同步、数据加工等操作,来详细阐述常见开发流程 数据产生 > 数据收集和存储 > 数据分析和计算

源数据 请参见 附件,数据说明如下:

字段 字段说明 提取说明
user_id 用户标识
brand_id 品牌ID
type 用户对品牌的行为类型 点击:0;购买:1;收藏:2;加入购物车:3
visit_datetime 行为时间 格式:年月日(yyyymmdd)

该数据主要记录 20150415-20150815 四个月的用户行为信息,本示例将以该数据作为源数据进行分析,产出目标表。

本示例实现过程中,涉及到的 MaxCompute 表说明如下:

序号 表名 说明
1 s_user_brand_demo 用户-品牌行为信息源表
2 b_cvr_demo 品牌转化率表,前3个月品牌的购买用户数/点击数
3 ub_action_demo 用户偏好表,统计用户最近7天和最近3天的行为次数
4 ub_features_demo 用户-品牌所有特征表

经分析,源数据 visit_datetime 字段刚好是年月日,为了提高后续查询速度,源表 s_user_brand_demo 建为分区表,以字段 visit_datetime 为分区。

用户数据每天都不断新增变化,本示例的表,都以年月日作为分区表。

后续步骤

现在,您已经对实验所需的数据做了一定的准备和了解,您可以继续学习下一个教程。在该教程中您将学习如何配置实验所需的 RDS 数据源。详情请参见 配置 RDS 数据源

本文导读目录