准备环境

本教程以用户画像为例,在华东2(上海)地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程,您需要准备教程所需的MaxCompute项目、DataWorks工作空间,以及数据来源、计算、存储的配置。

业务背景

为了更好的制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体的地理属性、社会属性等,实现定时定点进行画像分析,进而实现网站流量精细化运营操作。

前置条件

为了顺利进行教程操作,请您务必阅读实验介绍,充分了解用户画像分析实验整体流程。

注意事项

  • 本实验提供教程所需用户信息数据与网站访问测试数据,您可直接使用。

  • 本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。

MaxCompute环境准备

开通MaxCompute产品

本案例采用MaxCompute进行实验,请确保您已拥有MaxCompute项目,若您没有MaxCompute实例,则需开通MaxCompute,以下为本教程开通时所选参数。

  • 区域:华东2(上海)

  • 规格类型:标准计算资源。

新建MaxCompute项目

DataWorks标准工作空间下,需绑定开发和生产两个MaxCompute项目。

  1. 进入MaxCompute工作台,单击左侧菜单进入工作区 > 项目管理页面。

  2. 单击新建项目按钮,分别新建两个MaxCompute,作为DataWorks的开发环境下的数据源以及生产环境下的数据源,详情可参见:创建MaxCompute项目

    image

    配置项

    配置内容

    项目名称

    生产环境:workshop2024_01

    开发环境:workshop2024_01_dev

    计算资源付费类型

    本教程勾选:按量付费。

    默认Quota

    本教程下拉选择:默认后付费Quota。

    数据类型

    本教程下拉选择:2.0数据类型(推荐)。

    是否加密

    本教程勾选:不加密。

DataWorks环境准备

在DataWorks上开发前需要已开通DataWorks服务,详情请参见DataWorks准备工作

创建工作空间

  1. 登录DataWorks控制台,在左上角切换地域至拥有DataWorks服务地域。

  2. 单击左侧导航栏中的工作空间列表,进入空间列表页面,单击创建工作空间,创建标准模式空间(生产、开发环境隔离),详情请参见创建工作空间

说明
  • 如果已有工作空间,也可以忽略该步骤,使用已有工作空间。

  • 本案例提供的MySQL数据源和HttpFile所处地域在华东2(上海)地域,故本案例采用华东2(上海)地域。

创建Serverless资源组

本教程需将存储在OSS、MySQL中的数据同步至MaxCompute,同步任务需使用DataWorks的Serverless资源组,因此您需要先购买Serverless资源组,并完成前期的准备工作。

  1. 购买Serverless资源组。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。

    2. 单击新建资源组,在资源组购买页面,选择地域和可用区华东2(上海)、设置资源组名称,其他参数可根据界面提示进行配置,完成后根据界面提示完成付款。Serverless资源组的计费说明请参见Serverless资源组计费

      说明

      本教程将使用华东2(上海)地域的Serverless资源组进行示例演示,需注意Serverless资源组不支持跨地域操作。

  2. 配置Serverless资源组。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。

    2. 找到购买的Serverless资源组,单击操作列的绑定工作空间,根据界面提示将资源组绑定至已创建的DataWorks工作空间。

    3. 为资源组配置公网访问能力。

      1. 登录专有网络-公网NAT网关控制台,在顶部菜单栏切换至华东2(上海)地域。

      2. 单击创建公网NAT网关。配置相关参数。

        参数

        取值

        所属地域

        华东2(上海)。

        所属专有网络

        选择资源组绑定的VPC和交换机。

        您可以前往DataWorks管理控制台,切换地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定专有网络交换机。VPC和交换机的更多信息,请参见什么是专有网络

        关联交换机

        访问模式

        专有网络全通模式(SNAT)。

        弹性公网IP实例

        新购弹性公网IP。

        关联角色创建

        首次创建NAT网关时,需要创建服务关联角色,请单击创建关联角色

        说明

        上表中未说明的参数保持默认值即可。

      3. 单击立即购买,勾选服务协议后,单击立即开通,完成购买。

更多新增和使用Serverless资源组的操作指导请参见新增和使用Serverless资源组

绑定MaxCompute项目

本教程将在DataWorks上绑定MaxCompute项目作为开发环境与生产环境的计算、存储服务,以下将为您介绍如何将MaxCompute环境准备阶段创建的MaxCompute项目绑定至DataWorks中。

  1. 单击工作空间操作列的快速进入 > 数据开发

    image

  2. 在左侧导航栏单击数据源image),然后在数据源页面,单击新建数据源,选择MaxCompute

    image

  3. 请根据下图指引创建并绑定MaxCompute数据源。

    image关键参数说明:

    • 本教程数据源名称user_behavior_analysis_odps为例。

    • 所属云账号:配置为当前阿里云主账号

    • 地域:选择与当前DataWorks空间一致的地域华东2(上海)地域。

    • MaxCompute项目名称:选择华东2(上海)地域下已创建的MaxCompute项目:

      • 开发环境workshop2024_01_dev

      • 生产环境workshop2024_01

      重要
      • MaxCompute项目名称全网唯一,不允许重名,请勿与本教程完全一致,您可以自定义项目名称添加唯一标识作为后缀,避免因命名冲突而报错。

      • DataWorks标准环境下绑定MaxCompute项目,开发环境与生产环境必须选择不同项目,否则无法正常绑定。

    • 默认访问身份:开发环境默认为执行者,生产环境可根据当前登录账号进行下拉选择。

      • 如您当前登录的为主账号或RAM管理员账号:可以选择所有身份。

      • 如您当前登录的为子账号/RAM角色:

        • 是该项目的Super_Administrator或Admin角色:可以选择所有身份。

        • 不是该项目的Super_Administrator或Admin角色:仅能选择自己的身份。

    • Endpoint:选择自动适配

  4. 单击新建数据源并绑定数据开发

  5. 根据页面提示,刷新数据开发数据源页面后,即可看到已创建并绑定的MaxCompute数据源。

    image

    说明

    若发现创建的MaxCompute数据源呈未绑定状态,单击绑定按钮进行绑定。

后续步骤

现在,您已经完成了环境的准备,您可以继续下一个教程。在下一个教程中,您将学习将用户基本信息数据、用户网站访问日志数据同步至MaxCompute中。详情请参见同步数据DataWorks也为您提供了本教程相关代码,您可一键导入网站用户画像分析模板,直接体验配置数据质量监控。导入用户画像分析模板可参见:画像分析模板导入