准备环境

本教程以用户画像为例,在华东2(上海)地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程,您需要准备教程所需的EMR Serverless StarRocks集群、DataWorks工作空间,并进行相关的环境配置。

OSS 环境准备

本案例将使用自定义函数,注册函数所用资源将上传至OSS,请您确保已开通OSS服务创建OSS Bucket

EMR Serverless StarRocks 环境准备

本案例采用EMR Serverless StarRocks进行实验,请确保您已拥有StarRocks实例,若您没有StarRocks实例,可前往阿里云免费试用页面查看是否有试用资格,或直接购买实例,购买详情请参见E-MapReduce Serverless StarRocks 版购买页面

  • 实例类型:存算一体。

  • 地域:华东2(上海)地域。

  • 实例系列:入门版。

    重要

    该版本仅用于体验和功能测试,不承诺SLA,您可以根据需要选择标准版。

  • 版本:3.1。

本案例将在数据库user_behavior_analysis中进行,所以在EMR Serverless StarRocks实例创建成功后,需要新建数据库user_behavior_analysis,可登录EMR Serverless StarRocks 实例的SQL Editor中执行以下SQL新建数据库。

CREATE DATABASE user_behavior_analysis;

DataWorks环境准备

在DataWorks上开发前需要已开通DataWorks服务,详情请参见DataWorks准备工作流程

步骤一:创建工作空间

  1. 登录DataWorks控制台,在左上角切换地域至拥有DataWorks服务地域。

  2. 单击左侧导航栏中的工作空间列表,进入空间列表页面,单击创建工作空间,即可新建工作空间,详情请参见创建工作空间

说明
  • 如果已有工作空间,也可以忽略该步骤,使用已有工作空间。

  • 本案例提供的MySQL数据源和HttpFile所处地域在华东2(上海)地域,故本案例采用华东2(上海)地域。

步骤二:创建资源组

  1. 新购资源组:在DataWorks上运行StarRocks任务需使用资源组。关于资源组的购买,详情请参见新增和使用Serverless资源组

  2. 网络连通:确保资源组与StarRocks的网络连通,网络连通方案,详情请参见网络连通方案

    • 确认StarRocks网络环境image

    • 为DataWorks绑定相同VPC网络image

    • StarRocks添加白名单允许DataWorks Serverless资源组访问。

      1. 获取DataWorks Serverless资源组出口IP。image

      2. 单击StarRocks实例名,进入样例详情内在基础信息页面中,单击内网白名单添加DataWorks Serverless资源组的交换机网段IP。image

    • 为资源组配置公网访问能力。

      1. 登录专有网络-公网NAT网关控制台,在顶部菜单栏切换至华东2(上海)地域。

      2. 单击创建NAT网关。配置相关参数。

        参数

        取值

        所属地域

        华东2(上海)。

        所属专有网络

        选择资源组绑定的VPC和交换机。

        您可以前往DataWorks管理控制台,切换地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定的专有网络交换机。VPC和交换机的更多信息,请参见什么是专有网络

        关联交换机

        访问模式

        VPC全通模式(SNAT)。

        弹性公网IP

        新购弹性公网IP。

        关联角色创建

        首次创建NAT网关时,需要创建服务关联角色,请单击创建关联角色

        说明

        上表中未说明的参数保持默认值即可。

      3. 单击立即购买,勾选服务协议后,单击确认订单,完成购买。

步骤三:创建StarRocks数据源

DataWorks控制台导航栏左侧单击管理中心,然后在下拉框内选择目标空间单击进入管理中心。在管理中心中单击数据源 > 数据源列表页面,单击新增数据源,选择StarRocks,创建StarRocks数据源,将StarRocks实例通过阿里云实例模式创建数据源的方式添加至DataWorks当前空间。

image

  1. StarRocks数据源基本信息配置。

    您需要前往EMR控制台,在 DataWorks 中根据您实例详情内的信息,配置StarRocks 数据源的基础信息,以便后续进行任务同步及加工。以下是配置项的详细信息。

    配置项

    配置内容

    数据源名称

    配置数据源名称,本案例命名为:Doc_StarRocks_Storage_Compute_Tightly_01

    数据源描述

    对该数据源进行文字补充描述。

    配置模式

    阿里云实例模式

    地域

    华东 2-上海

    实例

    选择Serverless版的相应实例。

    数据库名称

    配置StarRocks内数据库名,本案例为:user_behavior_analysis,本案例的所有数据操作都将在该数据库下执行。

    用户名

    StarRocks数据库账号。

    密码

    StarRocks数据库密码。

  2. 测试资源连通性:连通性验证通过后,单击完成编辑,StarRocks数据源即可成功创建。

步骤四:创建MySQL数据源

  1. 管理中心页面,单击进入数据源 > 数据源列表页面后单击新增数据源

  2. 新增数据源对话框中,搜索选择数据源类型为MySQL

  3. 创建MySQL数据源对话框,配置各项参数。本教程需按示例值填写。

    参数

    描述

    数据源类型

    选择连接串模式

    数据源名称

    输入数据源名称,本教程请填写user_behavior_analysis_mysql

    数据源描述

    输入DataWorks案例体验专用数据源,在离线同步配置时读取该数据源即可访问平台提供的测试数据,该数据源只支持数据集成场景去读取,其他模块不支持使用。

    JDBC URL

    输入jdbc:mysql://rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com:3306/workshop

    说明

    您可以通过公网连接串的形式添加数据源,即通过公网地址访问平台提供的用于教程测试使用的RDS。

    用户名

    输入用户名,本教程请填写workshop

    密码

    输入密码,本教程请填写workshop#2017

    认证选项

    无认证。

  4. 单击指定的资源组连通状态列的测试连通性,等待界面提示测试完成,连通状态为可连通

  5. 单击完成

步骤五:创建HttpFile数据源

进入管理中心 > 数据源 > 数据源列表页面,单击新增数据源,选择HttpFile创建HttpFile数据源,将HttpFile数据源添加至DataWorks当前空间。

image

  1. HttpFile数据源基础信息配置。

    创建HttpFile数据源,基础信息配置说明如下。

    配置项

    描述

    数据源名称

    请输入HttpFile公共数据源在您空间下的显示名,本教程数据源命名为user_behavior_analysis_httpfile

    数据源描述

    对数据源进行简单描述。

    本数据源为DataWorks案例体验专用数据源,在离线同步配置时读取该数据源即可访问平台提供的测试数据,该数据源只支持数据集成场景中的读取,其他模块不支持使用。

    URL域名

    输入https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com

  2. 测试资源连通性:连通性通过之后,只需单击完成编辑,HttpFile数据源即可成功创建。

后续步骤

现在,您已经完成了环境的准备,您可以继续下一个教程。在下一个教程中,您将学习将用户基本信息数据、用户网站访问日志数据同步至StarRocks中。详情请参见同步数据