本教程以用户画像分析为例,演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为确保您能够顺利完成本教程,请准备好所需的EMR集群、DataWorks工作空间,并完成相关的环境配置。
业务背景
为了更好地制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体的地理属性、社会属性等,实现定时定点进行画像分析,进而实现网站流量精细化运营操作。
操作前须知
为了顺利进行教程操作,请您务必阅读实验介绍,充分了解用户画像分析案例整体流程。
注意事项
本教程提供教程所需用户信息数据与网站访问测试数据,您可直接使用。
本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。
本教程使用数据开发(Data Studio)(新版)进行数据加工。
EMR环境准备
本教程需要您创建一个EMR集群并集成到DataWorks,以便在DataWorks平台上执行基于EMR集群的数据处理任务。关键配置参数如下。创建EMR集群的详细步骤,请参见相关文档创建集群。
参数 | 取值 |
参数 | 取值 |
地域 | 华东2(上海)。 |
业务场景 | 数据湖。 |
产品版本 | 选择最新版本。 |
可选服务 | 根据实际需求选择组件,其中Hive组件、OSS-HDFS组件在本案例中必选。 |
元数据 | DLF统一元数据。 |
集群存储根路径 | 选择OSS-HDFS实例。如果下拉列表为空,请单击创建OSS-HDFS实例。 |
对于不同配置的EMR集群,DataWorks的支持情况存在差异。如果您需要在DataWorks上进行EMR任务开发,建议在创建EMR集群前参考相关文档DataWorks on EMR集群配置最佳实践。
DataWorks环境准备
使用DataWorks开发前,请确保已开通DataWorks服务,详情请参见开通DataWorks服务。
步骤一:创建工作空间
如果在华东2(上海)区域已有(新版)工作空间,可以忽略该步骤,使用已有工作空间。
登录DataWorks控制台,在顶部切换地域至华东2(上海),单击左侧导航栏中的工作空间,进入空间列表页面。
单击创建工作空间,创建参加数据开发(Data Studio)(新版)公测的标准模式空间(生产、开发环境隔离)。
2025年02月18日后,主账号在华东2(上海)地域首次开通DataWorks并创建工作空间时,默认启用新版数据开发。
更多创建工作空间的操作指导,请参见创建工作空间。
步骤二:创建Serverless资源组
购买Serverless资源组。
本教程在数据同步与调度时,需要使用DataWorks的Serverless资源组,因此您需要先购买Serverless资源组,并完成前期的准备工作。
登录DataWorks-资源组列表页,在顶部切换地域至华东2(上海),单击左侧导航栏的资源组,进入资源组列表页面。
单击创建资源组,在资源组购买页面,选择地域和可用区为华东2(上海)、设置资源组名称,其他参数可根据界面提示进行配置,然后根据界面提示完成付款。Serverless资源组的计费说明请参见Serverless资源组计费。
本教程将使用华东2(上海)地域的Serverless资源组进行示例演示,需注意Serverless资源组不支持跨地域操作。
如当前地域没有可用的VPC和交换机,请单击参数说明中对应的控制台链接前往创建。VPC和交换机的更多信息,请参见什么是专有网络。
将资源组绑定至DataWorks工作空间。
新购买的Serverless资源组需要绑定至工作空间,才能在后续操作中使用。
登录DataWorks-资源组列表页,在顶部切换地域至华东2(上海),找到购买的Serverless资源组,单击操作列的绑定工作空间,然后单击已创建的DataWorks工作空间后的绑定。
为资源组配置公网访问能力。
由于本教程使用的测试数据需要通过公网获取,资源组默认不具备公网访问能力,因此需要为资源组绑定的VPC配置公网NAT网关,添加EIP,使其与公开数据网络打通,从而获取数据。
登录专有网络-公网NAT网关控制台,在顶部菜单栏切换地域至华东2(上海)。
单击创建公网NAT网关,配置相关参数。以下为本示例所需配置的关键参数,未说明参数保持默认即可。
参数
取值
参数
取值
所属地域
华东2(上海)。
所属专有网络
选择资源组绑定的VPC和交换机。
您可以前往DataWorks管理控制台,切换至华东2(上海)地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定专有网络和交换机。VPC和交换机的更多信息,请参见什么是专有网络。
关联交换机
访问模式
专有网络全通模式(SNAT)。
弹性公网IP实例
新购弹性公网IP。
关联角色创建
首次创建NAT网关时,需要创建服务关联角色,请单击创建关联角色。
单击立即购买,勾选服务协议后,单击立即开通,完成购买。
更多新增和使用Serverless资源组的操作指导,请参见新增和使用Serverless资源组。
步骤三:绑定EMR计算资源
您可根据以下操作将EMR计算资源绑定到您所创建的工作空间,为工作空间提供计算存储服务。
进入DataWorks-工作空间列表页,在顶部切换地域至华东2(上海),找到已创建的工作空间,单击工作空间名称,进入空间详情页。
在左侧导航栏单击计算资源。
单击绑定计算资源,选择需要绑定的计算资源类型,然后配置相关参数,参数详情可参见:绑定计算资源参考。
选择EMR ,进入绑定EMR计算资源的配置页面。
配置如下参数:
配置项
说明
配置项
说明
集群所属云账号
选择当前阿里云主账号。
集群类型
选择数据湖(DataLake)。
集群
选择EMR环境准备创建的EMR集群。
默认访问身份
定义在当前工作空间下,使用什么身份访问该EMR集群。
开发环境:选择使用集群账号:hadoop。
生产环境:选择使用集群账号:hadoop。
传递Proxy User信息
选择不传递。
计算资源实例名
自定义计算资源实例名称。
单击确认,完成EMR计算资源配置。
在计算资源管理页面找到您所绑定的EMR计算资源,点击右上角的资源组初始化按钮,完成资源组连通性测试操作。
更多绑定计算资源的操作指导,请参见:绑定计算资源。
后续步骤
现在,您已经完成了环境的准备,可以继续下一个教程。在下一个教程中,您将学习如何将用户基本信息数据和用户网站访问日志数据同步至OSS,并通过EMR Hive节点建表查询同步后的数据。详情请参见同步数据。
- 本页导读
- 业务背景
- 操作前须知
- 注意事项
- EMR环境准备
- DataWorks环境准备
- 步骤一:创建工作空间
- 步骤二:创建Serverless资源组
- 步骤三:绑定EMR计算资源
- 后续步骤