使用旧版数据开发体验

更新时间:2025-03-12 09:54:49

通过本教程,您可以了解如何使用DataWorksEMR产品组合进行大数据开发和分析,并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。

实验介绍

为了更好地制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体的地理属性、社会属性等,实现定时定点进行画像分析,进而实现网站流量精细化运营操作。您可以通过DataWorksEMR产品组合完成数据同步、数据加工、数据管理和数据消费等操作。

说明

为了顺利进行教程操作,请您务必阅读实验介绍,充分了解用户画像分析实验整体流程。

数据开发平台

本案例使用DataWorks旧版数据开发(DataStudio)平台,请确保您的工作空间未参加新版数据开发公测。

  • 创建工作空间时,不选择参加数据开发(Data Studio)公测

  • 20250218日后,主账号在如下地域首次开通DataWorks并创建工作空间时,默认启用新版数据开发。如您已默认启用了新版数据开发,具体教程请参见使用新版数据开发体验

    华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、中国香港、新加坡、印度尼西亚(雅加达)、德国(法兰克福)

操作步骤

  1. 步骤一:准备环境

    创建教程所需的EMR集群、DataWorks工作空间,并完成相关的资源组网络配置。

  2. 步骤二:同步数据

    DataWorks中配置数据同步链路,将教程提供的用户信息和网站日志数据同步到OSS存储。基于创建EMR外部表解析OSS存储数据的方式,将数据同步到绑定的EMR计算资源,并查询同步后的数据。

  3. 步骤三:加工数据

    通过DataWorksEMR Hive节点,对同步到EMR的用户信息表和访问日志数据表中的数据进行加工,得到目标用户画像数据。

  4. 步骤四:监控数据质量

    为数据加工生成的表配置数据质量监控,提前识别脏数据并进行拦截,避免脏数据影响扩大。

  5. 步骤五:管理数据

    用户画像分析任务流程完成后,在EMR内将创建对应数据表。您可通过数据地图查看数据表之间的血缘关系。

  6. 步骤六:消费数据

    • 用户画像分析完成后,使用数据分析模块,将加工后的数据以图表形式直观展示,便于您快速提取关键信息,洞察数据背后的业务趋势。

    • 获取最终加工后的数据后,使用数据服务模块,通过标准化的数据服务接口,实现数据的共享与应用,为其他使用API接收数据的业务模块提供数据。

  • 本页导读
  • 实验介绍
  • 数据开发平台
  • 操作步骤
AI助理

点击开启售前

在线咨询服务

你好,我是AI助理

可以解答问题、推荐解决方案等