准备环境

更新时间:2025-03-05 10:40:51

本教程以构建用户画像为例,基于DataWorks预先提供的原始数据集,指导您在DataWorks 华东2(上海)地域完成数据同步、加工及质量监控全流程操作。请提前准备MaxCompute项目、DataWorks工作空间,并配置好数据源、计算及存储资源。

业务背景

为了更好地制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体的地理属性、社会属性等,实现定时定点进行画像分析,进而实现网站流量精细化运营操作。

操作前须知

为了顺利进行教程操作,请您务必阅读实验介绍,充分了解用户画像分析案例整体流程。

注意事项

  • 本教程提供教程所需用户信息数据与网站访问测试数据,您可直接使用。

  • 本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。

  • 本教程使用数据开发(Data Studio)(新版)进行数据加工。

MaxCompute环境准备

步骤一:开通MaxCompute产品

本教程基于MaxCompute实现,请确保已开通MaxCompute,可参考以下参数开通上海地域的MaxCompute。

  • 区域:华东2(上海)

  • 规格类型:标准计算资源。

步骤二:新建MaxCompute项目

DataWorks标准工作空间下,需绑定开发和生产两个MaxCompute项目,作为DataWorks开发环境下的计算资源以及生产环境下的计算资源。

  1. 进入MaxCompute工作台,单击左侧菜单进入工作区 > 项目管理页面。

  2. 单击新建项目,分别新建两个MaxCompute项目,以下为本示例所需配置的关键参数,未说明参数保持默认即可。

    配置项

    配置内容

    配置项

    配置内容

    项目名称

    自定义,全网唯一。

    本教程示例:

    • 生产环境:workshop2024_01

    • 开发环境:workshop2024_01_dev

    计算资源付费类型

    本教程勾选:按量付费。

    默认Quota

    本教程下拉选择:默认后付费Quota。

    数据类型

    本教程下拉选择:2.0数据类型(推荐)。

    是否加密

    本教程勾选:不加密。

更多创建MaxCompute的操作指导,请可参见:创建MaxCompute项目

DataWorks环境准备

使用DataWorks开发前,请确保已开通DataWorks服务,详情请参见开通DataWorks服务

步骤一:创建工作空间

如果在华东2(上海)区域已有(新版)工作空间,可以忽略该步骤,使用已有工作空间。

  1. 登录DataWorks控制台,在顶部切换地域至华东2(上海),单击左侧导航栏中的工作空间,进入空间列表页面。

  2. 单击创建工作空间,创建参加数据开发(Data Studio)(新版)公测标准模式空间(生产、开发环境隔离)。

    说明

    20250218日后,主账号在华东2(上海)地域首次开通DataWorks并创建工作空间时,默认启用新版数据开发。

更多创建工作空间的操作指导,请参见创建工作空间

步骤二:创建Serverless资源组

  1. 购买Serverless资源组。

    本教程在数据同步与调度时,需要使用DataWorksServerless资源组,因此您需要先购买Serverless资源组,并完成前期的准备工作。

    1. 登录DataWorks-资源组列表页,在顶部切换地域至华东2(上海),单击左侧导航栏的资源组,进入资源组列表页面。

    2. 单击创建资源组,在资源组购买页面,选择地域和可用区华东2(上海)、设置资源组名称,其他参数可根据界面提示进行配置,然后根据界面提示完成付款。Serverless资源组的计费说明请参见Serverless资源组计费

      说明
      • 本教程将使用华东2(上海)地域的Serverless资源组进行示例演示,需注意Serverless资源组不支持跨地域操作。

      • 如当前地域没有可用的VPC和交换机,请单击参数说明中对应的控制台链接前往创建。VPC和交换机的更多信息,请参见什么是专有网络

  2. 将资源组绑定至DataWorks工作空间。

    新购买的Serverless资源组需要绑定至工作空间,才能在后续操作中使用。

    登录DataWorks-资源组列表页,在顶部切换地域至华东2(上海),找到购买的Serverless资源组,单击操作列的绑定工作空间,然后单击已创建的DataWorks工作空间后的绑定

  3. 为资源组配置公网访问能力。

    由于本教程使用的测试数据需要通过公网获取,资源组默认不具备公网访问能力,因此需要为资源组绑定的VPC配置公网NAT网关,添加EIP,使其与公开数据网络打通,从而获取数据。

    1. 登录专有网络-公网NAT网关控制台,在顶部菜单栏切换地域至华东2(上海)

    2. 单击创建公网NAT网关,配置相关参数。以下为本示例所需配置的关键参数,未说明参数保持默认即可。

      参数

      取值

      参数

      取值

      所属地域

      华东2(上海)。

      所属专有网络

      选择资源组绑定的VPC和交换机。

      您可以前往DataWorks管理控制台,切换至华东2(上海)地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定专有网络交换机。VPC和交换机的更多信息,请参见什么是专有网络

      关联交换机

      访问模式

      专有网络全通模式(SNAT)。

      弹性公网IP实例

      新购弹性公网IP。

      关联角色创建

      首次创建NAT网关时,需要创建服务关联角色,请单击创建关联角色

    3. 单击立即购买,勾选服务协议后,单击立即开通,完成购买。

更多新增和使用Serverless资源组的操作指导,请参见新增和使用Serverless资源组

步骤三:绑定MaxCompute为计算资源

您需要先将已创建的MaxCompute项目作为计算资源绑定至DataWorks工作空间,后续才能在数据开发模块中对MaxCompute中的数据进行处理。

  1. 进入DataWorks-工作空间列表页,在顶部切换地域至华东2(上海),找到已创建的工作空间,单击工作空间名称,进入空间详情页。

  2. 在左侧导航栏单击计算资源

  3. 单击绑定计算资源,选择需要绑定的计算资源类型,然后配置相关参数。

    本教程使用MaxCompute作为计算和存储资源,此处计算资源类型选择MaxCompute,配置相关参数。以下为本示例所需配置的关键参数,未说明参数保持默认即可。

    参数

    说明

    参数

    说明

    MaxCompute项目

    选择需要绑定的MaxCompute项目,本教程分别为生产环境和开发环境绑定步骤二中已创建好的对应MaxCompute项目。

    默认访问身份

    定义在当前工作空间下,用什么身份访问该MaxCompute项目。

    • 开发环境:当前仅支持使用执行者身份访问。

    • 生产环境:可根据当前登录账号进行下拉选择。本教程选择阿里云主账号

      说明

      如果您当前登录的是其他身份账号,具体配置请参见创建MaxCompute数据源

    计算资源实例名

    自定义,用于标识该计算资源,在任务运行时,通过计算资源实例名称来选择任务运行的计算资源。

    连接配置

    连接MaxCompute计算资源的资源组,此处展示已创建并绑定至当前工作空间的Serverless资源组,您需要在此处分别测试开发环境和生产环境的连通性。

  4. 单击确认,完成MaxCompute计算资源配置。

更多绑定计算资源的操作指导,请参见:绑定计算资源参考

后续步骤

现在,您已经完成了环境的准备,您可以继续下一个教程。在下一个教程中,您将学习如何将用户基本信息数据、用户网站访问日志数据同步至OSS,然后通过ODPS SQL节点建表查询同步后的数据。详情请参见同步数据

  • 本页导读 (1)
  • 业务背景
  • 操作前须知
  • 注意事项
  • MaxCompute环境准备
  • 步骤一:开通MaxCompute产品
  • 步骤二:新建MaxCompute项目
  • DataWorks环境准备
  • 步骤一:创建工作空间
  • 步骤二:创建Serverless资源组
  • 步骤三:绑定MaxCompute为计算资源
  • 后续步骤