本教程以用户画像为例,在华东2(上海)地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程,您需要准备教程所需的EMR Serverless StarRocks集群、DataWorks工作空间,并进行相关的环境配置。
OSS 环境准备
本案例将使用自定义函数,注册函数所用资源将上传于OSS,请确保您已开通OSS实例并创建好OSS Bucket。详情请参见开始使用OSS。
EMR Serverless StarRocks 环境准备
本案例采用EMR Serverless StarRocks进行实验,请确保您已拥有StarRocks实例,若您没有StarRocks实例,可前往阿里云免费试用页面查看是否有试用资格,或直接购买实例,购买详情请参见E-MapReduce Serverless StarRocks 版购买页面。
实例类型:存算一体。
地域:华东2(上海)地域。
实例系列:入门版。
重要该版本仅用于体验和功能测试,不承诺SLA,您可以根据需要选择标准版。
版本:3.1。
本案例将在数据库user_behavior_analysis
中进行,所以在EMR Serverless StarRocks实例创建成功后,需要新建数据库user_behavior_analysis
,可登录EMR Serverless StarRocks 实例的SQL Editor中执行以下SQL新建数据库。
CREATE DATABASE user_behavior_analysis;
DataWorks环境准备
在DataWorks上开发前需要已开通DataWorks服务,详情请参见DataWorks准备工作流程。
步骤一:创建工作空间
登录DataWorks控制台,在左上角切换地域至拥有DataWorks服务地域。
单击左侧导航栏中的工作空间列表,进入空间列表页面,单击创建工作空间,即可新建工作空间,详情请参见创建工作空间。
如果已有工作空间,也可以忽略该步骤,使用已有工作空间。
本案例提供的MySQL数据源和HttpFile所处地域在华东2(上海)地域,故本案例采用华东2(上海)地域。
步骤二:创建资源组
新购资源组:在DataWorks上运行StarRocks任务需使用资源组。关于资源组的购买,详情请参见新增和使用Serverless资源组。
网络连通:确保资源组与StarRocks的网络连通,网络连通方案,详情请参见网络连通方案。
确认StarRocks网络环境
为DataWorks绑定相同VPC网络。
StarRocks添加白名单允许DataWorks Serverless资源组访问。
获取DataWorks Serverless资源组出口IP。
单击StarRocks实例名,进入样例详情内在基础信息页面中,单击内网白名单添加DataWorks Serverless资源组的交换机网段IP。
为资源组配置公网访问能力。
登录专有网络-公网NAT网关控制台,在顶部菜单栏切换至华东2(上海)地域。
单击创建NAT网关。配置相关参数。
参数
取值
所属地域
华东2(上海)。
所属专有网络
选择资源组绑定的VPC和交换机。
您可以前往DataWorks管理控制台,切换地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定的专有网络和交换机。VPC和交换机的更多信息,请参见什么是专有网络。
关联交换机
访问模式
VPC全通模式(SNAT)。
弹性公网IP
新购弹性公网IP。
关联角色创建
首次创建NAT网关时,需要创建服务关联角色,请单击创建关联角色。
说明上表中未说明的参数保持默认值即可。
单击立即购买,勾选服务协议后,单击确认订单,完成购买。
步骤三:创建StarRocks数据源
在DataWorks控制台导航栏左侧单击管理中心,然后在下拉框内选择目标空间单击进入管理中心。在管理中心中单击 页面,单击新增数据源,选择StarRocks,创建StarRocks数据源,将StarRocks实例通过阿里云实例模式创建数据源的方式添加至DataWorks当前空间。
StarRocks数据源基本信息配置。
您需要前往EMR控制台,在 DataWorks 中根据您实例详情内的信息,配置StarRocks 数据源的基础信息,以便后续进行任务同步及加工。以下是配置项的详细信息。
配置项
配置内容
数据源名称
配置数据源名称,本案例命名为:
Doc_StarRocks_Storage_Compute_Tightly_01
。数据源描述
对该数据源进行文字补充描述。
配置模式
阿里云实例模式。
地域
华东 2-上海
实例
选择Serverless版的相应实例。
数据库名称
配置StarRocks内数据库名,本案例为:
user_behavior_analysis
,本案例的所有数据操作都将在该数据库下执行。用户名
StarRocks数据库账号。
密码
StarRocks数据库密码。
测试资源连通性:连通性验证通过后,单击完成编辑,StarRocks数据源即可成功创建。
步骤四:创建MySQL数据源
进入
页面,单击新增数据源,选择MySQL,创建MySQL数据源,将MySQL实例通过连接串模式创建数据源的方式添加至DataWorks当前空间。MySQL数据源基础信息配置。
创建MySQL数据源的基础信息配置说明如下。
配置项
描述
数据源类型
选择连接串模式。
数据源名称
请输入MySQL公共数据源在您空间下的显示名,本教程数据源命名为
user_behavior_analysis_mysql
。数据源描述
对数据源进行简单描述。
本数据源为DataWorks案例体验专用数据源,在离线同步配置时读取该数据源即可访问平台提供的测试数据,该数据源只支持数据集成场景读取,其他模块不支持使用。
JDBC URL
输入
jdbc:mysql://rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com:3306/workshop
。用户名
输入用户名,请填写workshop。
密码
输入密码,请填写workshop#2017。
认证选项
无认证。
版本
自动选择。
测试资源连通性:连通性通过后,单击完成编辑,MySQL数据源即可创建成功。
步骤五:创建HttpFile数据源
进入
页面,单击新增数据源,选择HttpFile,创建HttpFile数据源,将HttpFile数据源添加至DataWorks当前空间。HttpFile数据源基础信息配置。
创建HttpFile数据源,基础信息配置说明如下。
配置项
描述
数据源名称
请输入HttpFile公共数据源在您空间下的显示名,本教程数据源命名为user_behavior_analysis_httpfile。
数据源描述
对数据源进行简单描述。
本数据源为DataWorks案例体验专用数据源,在离线同步配置时读取该数据源即可访问平台提供的测试数据,该数据源只支持数据集成场景中的读取,其他模块不支持使用。
URL域名
输入
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com
。测试资源连通性:连通性通过之后,只需单击完成编辑,HttpFile数据源即可成功创建。
后续步骤
现在,您已经完成了环境的准备,您可以继续下一个教程。在下一个教程中,您将学习将用户基本信息数据、用户网站访问日志数据同步至StarRocks中。详情请参见同步数据。