准备环境

本教程以用户画像为例,在华东2(上海)地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程,您需要准备教程所需的 EMR Serverless Spark空间、DataWorks工作空间,并进行相关的环境配置。

DataWorks产品准备

本案需确保您已开通DataWorks产品,若您账号下没有DataWorks产品,需在大数据开发治理平台 DataWorks页面进行开通,详情请参见:购买指引

EMR Serverless Spark 工作空间准备

本案例采用EMR Serverless Spark进行实验,请确保您已拥有Spark空间,若您没有Spark空间,需在E-MapReduce Serverless Spark 版页面进行开通。

  • 地域:华东2(上海)。

  • 付费类型:按量付费。

  • 工作空间名称:自定义名称即可。

  • DLF 作为元数据服务:选择需要绑定的 DLF 数据目录(Catalog),如不同 EMR 集群期望元数据完全隔离,请选择不同的 Catalog。

  • 工作空间基础路径:请选择一个 OSS Bucket 路径,用于存储任务作业的日志文件。

  • 工作空间类型:本实验选择专业版

    说明
    • 专业版:该工作空间包含所有基础版的功能,以及高级特性和性能改进项。更适合大规模 ETL 作业。

    • 基础版:该工作空间包含所有基础功能,以及提供具有优势的计算引擎。

私有OSS环境准备

本教程需要您创建一个OSS Bucket,后续会将用户信息和网站访问日志信息同步到OSS Bucket中,用于数据建模和数据分析。

  1. 登录OSS控制台

  2. 在左侧导航栏,单击Bucket列表,在Bucket列表页面,单击创建Bucket

  3. 创建Bucket对话框中,配置各项参数,单击完成创建

    • Bucket名称:自定义。

    • 地域:选择华东2(上海)

    • HDFS服务:根据界面提示打开HDFS服务开关。

      更多参数说明请参见控制台创建存储空间

  4. 在Bucket列表页单击相应的Bucket名称,进入Bucket的文件管理页面。

DataWorks环境准备

在准备好DataWorks、EMR Serverless Spark以及OSS对象存储产品后,可以在DataWorks内创建工作空间、新增注册Spark集群以及创建数据源,为后续的同步数据、加工数据提供环境。

创建DataWorks工作空间

  1. 登录DataWorks控制台

  2. 单击左侧导航栏上的工作空间列表,进入空间列表页面。

  3. 单击创建工作空间,在左侧弹出的创建工作空间面板内新建生产、开发环境隔离标准模式空间。

说明

因本示例提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况,如果您想要更简便的操作可以在生产、环境是否隔离这一参数处选择

创建资源组

在使用DataWorks前,必须新建资源组,为数据同步与调度提供运行资源,所以需要确保资源组与Serverless Spark之间的网络正常联通。

  1. 购买Serverless资源组。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。

    2. 单击新建资源组,在资源组购买页面,选择地域和可用区华东2(上海)、设置资源组名称,其他参数可根据界面提示进行配置,完成后根据界面提示完成付款。Serverless资源组的计费说明请参见Serverless资源组计费

      说明

      本教程将使用华东2(上海)地域的Serverless资源组进行示例演示,需注意Serverless资源组不支持跨地域操作。

  2. 配置Serverless资源组。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。

    2. 找到购买的Serverless资源组,单击操作列的修改归属工作空间,根据界面提示将资源组绑定至已创建的DataWorks工作空间。

    3. 为资源组配置公网访问能力。

      1. 登录专有网络-公网NAT网关控制台,在顶部菜单栏切换至华东2(上海)地域。

      2. 单击创建NAT网关。配置相关参数。

        参数

        取值

        所属地域

        华东2(上海)。

        所属专有网络

        选择资源组绑定的VPC和交换机。

        您可以前往DataWorks管理控制台,切换地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定的专有网络交换机。VPC和交换机的更多信息,请参见什么是专有网络

        关联交换机

        访问模式

        VPC全通模式(SNAT)。

        弹性公网IP

        新购弹性公网IP。

        关联角色创建

        首次创建NAT网关时,需要创建服务关联角色,请单击创建关联角色

        说明

        上表中未说明的参数保持默认值即可。

      3. 单击立即购买,勾选服务协议后,单击确认订单,完成购买。

注册EMR Serverless Spark集群

用户画像分析的流程中的数据存储与数据处理,将在EMR Serverless Spark集群中进行,需您提前注册好相应的Spark集群。

  1. 进入管理中心页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的更多 > 管理中心,在下拉框中选择对应工作空间后单击进入管理中心

  1. 单击左侧导航栏的集群管理进入集群管理页面后,单击注册集群,即可在弹窗内选择E-MapReduce,进行配置EMR Serverless Spark集群。

  2. 注册E-MapReduce 集群

    • 集群显示名称:自定义即可。

    • 集群所属云账号:选择当前阿里云主账号。

    • 集群类型:EMR Serverless Spark。

    • E-MapReduce工作空间:选择准备的EMR Serverless Spark 工作空间准备

    • 默认引擎版本:在DataStudio中新建EMR Spark任务时,将会默认使用该引擎版本。如需面向不同任务设置不同的引擎版本,请在Spark任务编辑窗口的“高级设置”中进行定义。

    • 默认资源队列:在DataStudio中新建EMR Spark任务时,将会默认使用该资源队列。如需面向不同任务设置不同的资源队列,请在Spark任务编辑窗口的“高级设置”中进行定义。

    • 默认SQL Compute:在DataStudio中新建EMR Spark SQL任务时,将会默认使用该SQL Compute。如需面向不同任务设置不同的SQL Compute,请在Spark任务编辑窗口的“高级设置”中进行定义。

    • 默认访问身份开发环境默认为执行者生产环境可选择阿里云主账号阿里云RAM子账号任务责任人

      说明

      本教程配置如上,若您的场景与此不同,可参考注册EMR集群至DataWorks

创建数据源

本教程为您提供了存储用户信息数据的MySQL数据库,以及存储用户日志数据的OSS对象存储,需要在DataWorks上将其创建为数据源以供数据同步使用。

说明
  • 平台已提供本教程所需的测试数据及数据源,您需将该数据源添加至您的工作空间,即可在工作空间访问平台提供的测试数据。

  • 本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据,并且只支持在数据集成模块读取数据。

  • 私有OSS环境准备步骤中创建的OSS对象存储的Bucket将用于接收MySQL数据源的用户信息数据与HttpFile的日志数据信息。

创建MySQL数据源

本次实验创建MySQL数据源的数据库由平台提供,作为数据集成任务的数据来源,提供用户信息数据。

  1. 管理中心页面,单击进入数据源 > 数据源列表页面后单击新增数据源

  2. 新增数据源对话框中,搜索选择数据源类型为MySQL

  3. 创建MySQL数据源对话框,配置各项参数。本教程需按示例值填写。

    参数

    描述

    数据源名称

    输入数据源名称,本教程请填写user_behavior_analysis_mysql

    数据源描述

    输入DataWorks案例体验专用数据源,在离线同步配置时读取该数据源即可访问平台提供的测试数据,该数据源只支持数据集成场景读取,其他模块不支持使用。

    配置模式

    选择连接串模式

    连接地址

    • 主机地址IP:rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com

    • 端口号:3306

    数据库名称

    输入数据库名,本教程请填写workshop·

    用户名

    输入用户名,本教程请填写workshop

    密码

    输入密码,本教程请填写workshop#2017

    认证选项

    无认证。

  4. 单击指定的资源组连通状态列的测试连通性,等待界面提示测试完成,连通状态为可连通

  5. 单击完成

创建HttpFile数据源

本次实验创建HttpFile数据源为OSS对象存储,该OSS对象存储由平台提供,作为数据集成任务的数据来源侧提供日志数据。

  1. 进入数据源页面。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的更多 > 管理中心,在下拉框中选择对应工作空间后单击进入管理中心

    2. 进入工作空间管理中心页面后,单击左侧导航栏的数据源 > 数据源列表,进入数据源页面。

  2. 单击新增数据源

  3. 新增数据源对话框中,搜索选择数据源类型为HttpFile

  4. 创建HttpFile数据源对话框中,配置各项参数。本教程需按示例值填写。

    参数

    描述

    数据源名称

    输入数据源名称,本教程请填写user_behavior_analysis_httpfile

    数据源描述

    输入DataWorks案例体验专用数据源,在离线同步配置时读取该数据源即可访问平台提供的测试数据,该数据源只支持数据集成场景去读取,其他模块不支持使用。

    适用环境

    勾选开发生产

    说明

    开发环境的数据源创建完成后,需要勾选生产,以同样方式创建生产环境的数据源,否则任务生产执行会报错。

    URL域名

    输入https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com

  5. 单击指定的资源组连通状态列的测试连通性,等待界面提示测试完成,连通状态为可连通

    重要

    需确保至少一个资源组为可连通状态,否则此数据源无法使用向导模式创建同步任务。

  6. 单击完成创建

添加私有OSS数据源

本次实验创建私有OSS数据源的OSS对象存储需您自行准备,将作为数据集成的数据去向来接收用户信息数据与用户日志信息数据。

说明

私有OSS数据源指的是您自己的OSS对象存储创建的OSS数据源,用来存储从DataWorks文档提供的MySQL中导入的用户信息数据与存储从DataWorks文档提供的OSS对象存储创建的HttpFile数据源中导入的日志数据。

  1. 管理中心页面,单击进入数据源 > 数据源列表页面后单击新增数据源

  2. 新增数据源对话框中,搜索选择数据源类型为OSS

  3. 新增OSS数据源对话框中,配置各项参数。

    参数

    描述

    数据源名称

    输入数据源的名称,本示例为test_g

    数据源描述

    对数据源进行简单描述。

    Endpoint

    输入http://oss-cn-shanghai-internal.aliyuncs.com

    Bucket

    您准备环境时创建的OSS Bucket的名称,示例为dw-emr-demo

    访问模式

    RAM角色授权模式

    通过STS授权的方式允许云产品服务账号扮演相关角色来访问数据源,具备更高安全性,详见:通过RAM角色授权模式配置数据源

    Access Key模式

    AccessKey ID

    当前登录账号的AccessKey ID,您可以进入安全信息管理页面复制AccessKey ID。

    AccessKey Secret

    输入当前登录账号的AccessKey Secret。

    重要

    AccessKey Secret只在创建时显示,不支持后续再次查看,请妥善保管。如果AccessKey泄露或丢失,请删除并创建新的AccessKey

    说明

    访问模式在RAM角色授权模式Access Key模式选择其一即可。

  4. 单击指定资源组连通状态列的测试连通性,等待界面提示测试完成,连通状态为可连通

    重要

    需确保至少一个资源组为可连通状态,否则此数据源无法使用向导模式创建同步任务。

  5. 单击完成

后续步骤

现在,您已经完成了环境的准备,可以继续下一个教程。在下一个教程中,您将学习如何将用户基本信息数据、用户网站访问日志数据同步至OSS中,再通过Spark SQL创建外部表来访问私有OSS数据存储。详情请参见同步数据