实验介绍
为了更好地制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体的地理属性、社会属性等,实现定时定点进行画像分析,进而实现网站流量精细化运营操作。您可以通过DataWorks和EMR产品组合完成数据同步、数据加工、数据管理和数据消费。
说明
为了顺利进行教程操作,请您务必阅读实验介绍,充分了解用户画像分析实验整体流程。
操作流程
步骤一:准备环境
创建教程所需的EMR集群、DataWorks工作空间,并完成相关的环境配置。
步骤二:同步数据
在DataWorks配置数据同步链路,将教程提供的用户信息和网站日志数据同步到OSS数据源,并通过EMR Hive节点建表查询同步后的数据。
步骤三:加工数据
通过DataWorks的EMR Hive节点,对同步到OSS的用户信息表和访问日志数据表中的数据进行加工,得到目标用户画像数据。
步骤四:配置数据质量监控
以数据加工生成的表dwd_log_info_di_emr为例,介绍如何在DataWorks配置数据质量监控。
常见问题
在DataWorks控制台绑定E-MapReduce时找不到集群,怎么处理?
请确认要绑定的集群是否满足DataWorks支持的集群类型,并确认在DataWorks控制台绑定E-MapReduce的使用限制及前提条件,具体可参见注册EMR集群至DataWorks。其中DataWorks当前不支持执行EMR的Flink任务,且不支持DataFlow集群类型,如果您需要调度Flink任务,您可以通过EMR Workflow调度Flink任务。关于EMR Workflow和实时计算Flink版,可参见什么是EMR Workflow和什么是阿里云实时计算Flink版。