本教程以简单的用户画像分析为例,带您了解DataWorks和EMR如何配合使用完成数据同步、数据开发和任务运维等操作。您可以通过本文了解实验背景、工作流设计、模块及实验相关数据等信息,方便顺利完成教程操作。
实验设计
实验背景
为了更好地制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体地理属性、社会属性等,实现定时定点进行画像分析,进而实现网站流量精细化运营操作,通过DataWorks在线学习的方式完成以下场景。
同步数据。
加工数据。
管理数据。
消费数据。
工作流设计
在本实验中,您将根据DataWorks和EMR产品组合完成用户画像分析,具体的流程步骤如下。
通过数据集成获取不同数据源中的用户基本信息数据和用户访问日志信息至引擎中。
在引擎中将获取到的日志数据通过加工拆解为可分析的字段。
在引擎中将用户基本信息和初步加工后的日志数据进行汇总加工。
进一步加工产出基本用户画像。

涉及模块
本实验涉及的DataWorks模块如下。
步骤  | 操作内容  | 阶段性目标  | 
同步数据  | 对存储在MySQL中的用户信息数据及存储在OSS中用户访问日志数据配置同步链路同步至EMR。  | 学习如下内容: 
  | 
加工数据  | 使用数据开发(DataStudio)(旧版)模块,将日志数据通过函数、正则等方式拆解为可分析字段,并与用户信息表加工汇总产出基本的用户画像数据。  | 学习如下内容: 
  | 
数据质量监控  | 数据质量提供对调度任务产出的表数据的质量监控能力,您可以通过配置表的质量监控规则实现对表数据的监控。  | 学习如何基于DataWorks为任务产出的表,配置数据质量的监控规则,以保证快速感知源端数据的变更过程中产生的脏数据,有效阻断脏数据向下游蔓延。  | 
实验数据
实验日志数据结构
实际操作前,请先了解该项目背景下企业已有的业务数据及其数据格式,以及业务背景分析需要的目标用户画像基本结构。
以下为OSS中存储的
user_log.txt文件原始数据。$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent"$http_referer" "$http_user_agent" [unknown_content];可根据原始日志数据获取到如下有效信息。
字段名称
字段说明
$remote_addr
发送请求的客户端IP地址。
$remote_user
客户端登录名。
$time_local
服务器本地时间。
$request
请求,包括HTTP请求类型+请求URL+HTTP协议版本号。
$status
服务端返回状态码。
$body_bytes_sent
返回给客户端的字节数(不含header)。
$http_referer
该请求的来源URL。
$http_user_agent
发送请求的客户端信息,如使用的浏览器等。
实验用户信息数据结构
MySQL用户信息数据结构(ods_user_info_d)
字段名称  | 字段说明  | 
uid  | 用户名  | 
gender  | 性别  | 
age_range  | 年龄分段  | 
zodiac  | 星座  | 
实验目标数据结构
根据原始数据分析可获得的有效数据,并基于业务需求确认最终数据表结构。
字段名称  | 字段说明  | 
uid  | 用户名  | 
region  | 地域  | 
device  | 终端类型  | 
pv  | 浏览量  | 
gender  | 性别  | 
age_range  | 年龄分段  | 
Zodiac  | 星座  | 
更多操作
操作  | 描述  | 文档  | 
元数据管理  | 通过数据地图概述模块,对源端表数据进行元数据管理与查看。  | |
消费数据  |