用户画像分析案例环境准备-基于新版数据开发和Spark计算资源_大数据开发治理平台 DataWorks(DataWorks)-阿里云帮助中心

本教程以用户画像为例，在华东2（上海）地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程，您需要准备教程所需的EMR Serverless Spark空间、DataWorks工作空间，并进行相关的环境配置。

业务背景

为了更好地制定企业经营策略，现需要从用户网站行为中获取网站用户群体基本画像数据，例如，用户群体的地理属性、社会属性等，实现定时定点进行画像分析，进而实现网站流量精细化运营操作。

操作前须知

为了顺利进行教程操作，请您务必阅读实验介绍，充分了解用户画像分析案例整体流程。

注意事项

本教程提供教程所需用户信息数据与网站访问测试数据，您可直接使用。
本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用，所有数据均为人工Mock数据。
本教程使用数据开发（Data Studio）（新版）进行数据加工。

OSS对象存储环境准备

本教程需要您创建一个OSS Bucket，后续会将用户信息和网站访问日志信息同步到OSS Bucket中，用于数据建模和数据分析。

登录OSS控制台。
在左侧导航栏，单击Bucket列表，在Bucket列表页面，单击创建Bucket。
在创建Bucket对话框中，配置各项参数，单击完成创建。配置如下：
参数
取值
Bucket名称
本示例命名为dw-spark-demo。
地域
选择华东2（上海）
HDFS服务
根据界面提示打开HDFS服务开关
在Bucket列表页单击相应的Bucket名称，进入Bucket的文件管理页面。

EMR Serverless Spark工作空间准备

本案例采用EMR Serverless Spark进行案例，请确保您已拥有Spark空间，若您没有Spark空间，需创建工作空间。配置如下：

参数	取值
地域	华东2（上海）
付费类型	按量付费。
工作空间名称	自定义名称即可。
DLF 作为元数据服务	选择需要绑定的DLF数据目录（Catalog），如不同EMR集群期望元数据完全隔离，请选择不同的Catalog。
工作空间基础路径	请选择一个OSS Bucket路径，用于存储任务作业的日志文件。

说明

专业版：该工作空间包含所有基础版的功能，以及高级特性和性能改进项。更适合大规模ETL作业。
基础版：该工作空间包含所有基础功能，以及提供具有优势的计算引擎。

DataWorks环境准备

使用DataWorks开发前，请确保已开通DataWorks服务，详情请参见开通DataWorks服务。

一、创建工作空间

如果在华东2（上海）区域已有（新版）工作空间，可以忽略该步骤，使用已有工作空间。

登录DataWorks控制台，在顶部切换地域至华东2（上海），单击左侧导航栏中的工作空间，进入空间列表页面。
单击创建工作空间，创建参加数据开发（Data Studio）公测的标准模式空间（生产、开发环境隔离）。
说明
2025年02月18日后，主账号在华东2（上海）地域首次开通DataWorks并创建工作空间时，默认启用新版数据开发。

更多创建工作空间的操作指导，请参见创建工作空间。

二、创建Serverless资源组

购买Serverless资源组。
本教程在数据同步与调度时，需要使用DataWorks的Serverless资源组，因此您需要先购买Serverless资源组，并完成前期的准备工作。
1. 登录DataWorks-资源组列表页，在顶部切换地域至华东2（上海），单击左侧导航栏的资源组，进入资源组列表页面。
2. 单击创建资源组，在资源组购买页面，选择地域和可用区为华东2（上海）、设置资源组名称，其他参数可根据界面提示进行配置，然后根据界面提示完成付款。Serverless资源组的计费说明请参见Serverless资源组计费。
  说明
  如当前地域没有可用的VPC和交换机，请单击参数说明中对应的控制台链接前往创建。VPC和交换机的更多信息，请参见什么是专有网络VPC。
将资源组绑定至DataWorks工作空间。
新购买的Serverless资源组需要绑定至工作空间，才能在后续操作中使用。
登录DataWorks-资源组列表页，在顶部切换地域至华东2（上海），找到购买的Serverless资源组，单击操作列的绑定工作空间，然后单击已创建的DataWorks工作空间后的绑定。

为资源组配置公网访问能力。

由于本教程使用的测试数据需要通过公网获取，资源组默认不具备公网访问能力，因此需要为资源组绑定的VPC配置公网NAT网关，添加EIP，使其与公开数据网络打通，从而获取数据。

登录专有网络-公网NAT网关控制台，在顶部菜单栏切换地域至华东2（上海）。

单击创建公网NAT网关，配置相关参数。以下为本示例所需配置的关键参数，未说明参数保持默认即可。

参数	取值
地域	华东2（上海）。
网络及可用区	选择资源组绑定的VPC和交换机。您可以前往DataWorks管理控制台，切换至华东2（上海）地域后，在左侧导航栏单击资源组列表，找到已创建的资源组，然后单击操作列的网络设置，在数据调度 & 数据集成区域查看绑定专有网络和交换机。VPC和交换机的更多信息，请参见什么是专有网络VPC。
网络类型	公网NAT网关。
弹性公网IP实例	创建弹性公网IP。
关联角色创建	首次创建NAT网关时，需要创建服务关联角色，请单击创建关联角色。

单击立即购买，勾选服务协议后，单击立即开通，完成购买。

更多新增和使用Serverless资源组的操作指导，请参见新增和使用Serverless资源组。

三、绑定EMR Serverless Spark为计算资源

进入DataWorks-工作空间列表页，在顶部切换地域至华东2（上海），找到已创建的工作空间，单击工作空间名称，进入空间详情页。
在左侧导航栏单击计算资源。

单击绑定计算资源，选择需要绑定的计算资源类型，然后配置相关参数。

本教程使用EMR Serverless Spark作为计算和存储资源，此处计算资源类型选择EMR Serverless Spark，配置相关参数。以下为本示例所需配置的关键参数，未说明参数保持默认即可。

参数	说明
Spark工作空间	选择需要绑定的Spark工作空间，下拉选择EMR Serverless Spark工作空间，您也可以在下拉菜单中单击新建，前往EMR Serverless Spark控制台进行创建，然后再回到DataWorks空间中选择新创建的Spark工作空间。说明如果在创建工作空间时选择了隔离生产、开发环境，则此处需要分别为生产和开发环境选择Spark工作空间。如何创建Spark工作空间，请参见创建Spark工作空间。
默认引擎版本	在Data Studio中新建EMR Spark任务时，将会默认使用此处配置的引擎版本、消息队列和SQL Compute。
默认消息队列
默认SQL Compute
默认访问身份	定义在当前工作空间下，用什么身份访问该Spark工作空间。开发环境：当前仅支持使用执行者身份访问。生产环境：支持使用阿里云主账号、阿里云RAM子账号和任务责任人。
计算资源实例名	用于标识该计算资源，在任务运行时，通过计算资源实例名称来选择任务运行的计算资源。

单击确认，完成Serverless Spark计算资源配置。

更多绑定计算资源的操作指导，请参见：绑定计算资源。

后续步骤

现在，您已经完成了环境的准备，您可以继续下一个教程。在下一个教程中，您将学习将用户基本信息数据、用户网站访问日志数据同步至OSS，然后通过Spark SQL节点建表查询同步后的数据。详情请参见同步数据。

参数	取值
Bucket名称	本示例命名为`dw-spark-demo`。
地域	选择华东2（上海）
HDFS服务	根据界面提示打开HDFS服务开关