实验介绍

本教程以简单的用户画像分析为例,带您了解DataWorksEMR如何配合使用完成数据同步、数据开发和任务运维等操作。您可以通过本文了解实验背景、工作流设计、模块及实验相关数据等信息,方便顺利完成教程操作。

实验设计

实验背景

为了更好地制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体地理属性、社会属性等,实现定时定点进行画像分析,进而实现网站流量精细化运营操作,通过DataWorks在线学习的方式完成以下场景。

  • 同步数据。

  • 加工数据。

  • 管理数据。

  • 消费数据。

工作流设计

在本实验中,您将根据DataWorksEMR产品组合完成用户画像分析,具体的流程步骤如下。

  1. 通过数据集成获取不同数据源中的用户基本信息数据和用户访问日志信息至引擎中。

  2. 在引擎中将获取到的日志数据通过加工拆解为可分析的字段。

  3. 在引擎中将用户基本信息和初步加工后的日志数据进行汇总加工。

  4. 进一步加工产出基本用户画像。

    image

涉及模块

本实验涉及的DataWorks模块如下。

步骤

操作内容

阶段性目标

同步数据

对存储在MySQL中的用户信息数据及存储在OSS中用户访问日志数据配置同步链路同步至EMR。

学习如下内容:

  • 如何将不同数据源数据同步到EMR。

  • 如何新建对应数据源的表。

  • 如何快速触发任务运行。

  • 如何查看任务日志。

加工数据

使用数据开发(DataStudio)(旧版)模块,将日志数据通过函数、正则等方式拆解为可分析字段,并与用户信息表加工汇总产出基本的用户画像数据。

学习如下内容:

  • 如何基于DataWorks新建并配置数据流程节点。

  • 如何运行工作流。

数据质量监控

数据质量提供对调度任务产出的表数据的质量监控能力,您可以通过配置表的质量监控规则实现对表数据的监控。

学习如何基于DataWorks为任务产出的表,配置数据质量的监控规则,以保证快速感知源端数据的变更过程中产生的脏数据,有效阻断脏数据向下游蔓延。

实验数据

实验日志数据结构

实际操作前,请先了解该项目背景下企业已有的业务数据及其数据格式,以及业务背景分析需要的目标用户画像基本结构。

  • 以下为OSS中存储的user_log.txt文件原始数据。

    $remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent"$http_referer" "$http_user_agent" [unknown_content];

    可根据原始日志数据获取到如下有效信息。

    字段名称

    字段说明

    $remote_addr

    发送请求的客户端IP地址。

    $remote_user

    客户端登录名。

    $time_local

    服务器本地时间。

    $request

    请求,包括HTTP请求类型+请求URL+HTTP协议版本号。

    $status

    服务端返回状态码。

    $body_bytes_sent

    返回给客户端的字节数(不含header)。

    $http_referer

    该请求的来源URL。

    $http_user_agent

    发送请求的客户端信息,如使用的浏览器等。

实验用户信息数据结构

MySQL用户信息数据结构(ods_user_info_d

字段名称

字段说明

uid

用户名

gender

性别

age_range

年龄分段

zodiac

星座

实验目标数据结构

根据原始数据分析可获得的有效数据,并基于业务需求确认最终数据表结构。

字段名称

字段说明

uid

用户名

region

地域

device

终端类型

pv

浏览量

gender

性别

age_range

年龄分段

Zodiac

星座

更多操作

操作

描述

文档

元数据管理

通过数据地图概述模块,对源端表数据进行元数据管理与查看。

管理数据

消费数据

  • 通过数据分析模块对最终结果表进行SQL查询分析。对最终结果表进行用户画像分析。例如,访问用户中地域分布分析、城市注册人数排行榜分析。

  • 通过数据服务API模块,将最终结果表创建为API服务。