本教程以用户画像为例,在华东2(上海)地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程,您需要准备教程所需的MaxCompute项目、DataWorks工作空间,以及数据来源、计算、存储的配置。
业务背景
为了更好的制定企业经营策略,现需要从用户网站行为中获取网站用户群体基本画像数据,例如,用户群体的地理属性、社会属性等,实现定时定点进行画像分析,进而实现网站流量精细化运营操作。
前置条件
为了顺利进行教程操作,请您务必阅读实验介绍,充分了解用户画像分析实验整体流程。
注意事项
本实验提供教程所需用户信息数据与网站访问测试数据,您可直接使用。
本实验提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据。
MaxCompute环境准备
开通MaxCompute产品
本案例采用MaxCompute进行实验,请确保您已拥有MaxCompute项目,若您没有MaxCompute实例,则需开通MaxCompute,以下为本教程开通时所选参数。
区域:华东2(上海)
规格类型:标准计算资源。
新建MaxCompute项目
DataWorks标准工作空间下,需绑定开发和生产两个MaxCompute项目。
进入MaxCompute工作台,单击左侧菜单进入 页面。
单击新建项目按钮,分别新建两个MaxCompute,作为DataWorks的开发环境下的数据源以及生产环境下的数据源,详情可参见:创建MaxCompute项目。
配置项
配置内容
项目名称
生产环境:
workshop2024_01
。开发环境:
workshop2024_01_dev
。计算资源付费类型
本教程勾选:按量付费。
默认Quota
本教程下拉选择:默认后付费Quota。
数据类型
本教程下拉选择:2.0数据类型(推荐)。
是否加密
本教程勾选:不加密。
DataWorks环境准备
在DataWorks上开发前需要已开通DataWorks服务,详情请参见DataWorks准备工作。
创建工作空间
登录DataWorks控制台,在左上角切换地域至拥有DataWorks服务地域。
单击左侧导航栏中的工作空间列表,进入空间列表页面,单击创建工作空间,创建标准模式空间(生产、开发环境隔离),详情请参见创建工作空间。
如果已有工作空间,也可以忽略该步骤,使用已有工作空间。
本案例提供的MySQL数据源和HttpFile所处地域在华东2(上海)地域,故本案例采用华东2(上海)地域。
创建Serverless资源组
本教程需将存储在OSS、MySQL中的数据同步至MaxCompute,同步任务需使用DataWorks的Serverless资源组,因此您需要先购买Serverless资源组,并完成前期的准备工作。
购买Serverless资源组。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。
单击新建资源组,在资源组购买页面,选择地域和可用区为华东2(上海)、设置资源组名称,其他参数可根据界面提示进行配置,完成后根据界面提示完成付款。Serverless资源组的计费说明请参见Serverless资源组计费。
说明本教程将使用华东2(上海)地域的Serverless资源组进行示例演示,需注意Serverless资源组不支持跨地域操作。
配置Serverless资源组。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。
找到购买的Serverless资源组,单击操作列的绑定工作空间,根据界面提示将资源组绑定至已创建的DataWorks工作空间。
为资源组配置公网访问能力。
登录专有网络-公网NAT网关控制台,在顶部菜单栏切换至华东2(上海)地域。
单击创建公网NAT网关。配置相关参数。
参数
取值
所属地域
华东2(上海)。
所属专有网络
选择资源组绑定的VPC和交换机。
您可以前往DataWorks管理控制台,切换地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定专有网络和交换机。VPC和交换机的更多信息,请参见什么是专有网络。
关联交换机
访问模式
专有网络全通模式(SNAT)。
弹性公网IP实例
新购弹性公网IP。
关联角色创建
首次创建NAT网关时,需要创建服务关联角色,请单击创建关联角色。
说明上表中未说明的参数保持默认值即可。
单击立即购买,勾选服务协议后,单击立即开通,完成购买。
更多新增和使用Serverless资源组的操作指导请参见新增和使用Serverless资源组。
绑定MaxCompute项目
本教程将在DataWorks上绑定MaxCompute项目作为开发环境与生产环境的计算、存储服务,以下将为您介绍如何将MaxCompute环境准备阶段创建的MaxCompute项目绑定至DataWorks中。
单击工作空间操作列的
。在左侧导航栏单击数据源(),然后在数据源页面,单击新建数据源,选择MaxCompute。
请根据下图指引创建并绑定MaxCompute数据源。
关键参数说明:
本教程数据源名称以
user_behavior_analysis_odps
为例。所属云账号:配置为当前阿里云主账号。
地域:选择与当前DataWorks空间一致的地域华东2(上海)地域。
MaxCompute项目名称:选择华东2(上海)地域下已创建的MaxCompute项目:
开发环境:
workshop2024_01_dev
生产环境:
workshop2024_01
重要MaxCompute项目名称全网唯一,不允许重名,请勿与本教程完全一致,您可以自定义项目名称或添加唯一标识作为后缀,避免因命名冲突而报错。
DataWorks标准环境下绑定MaxCompute项目,开发环境与生产环境必须选择不同项目,否则无法正常绑定。
默认访问身份:开发环境默认为执行者,生产环境可根据当前登录账号进行下拉选择。
如您当前登录的为主账号或RAM管理员账号:可以选择所有身份。
如您当前登录的为子账号/RAM角色:
是该项目的Super_Administrator或Admin角色:可以选择所有身份。
不是该项目的Super_Administrator或Admin角色:仅能选择自己的身份。
Endpoint:选择自动适配。
单击新建数据源并绑定数据开发。
根据页面提示,刷新数据开发数据源页面后,即可看到已创建并绑定的MaxCompute数据源。
说明若发现创建的MaxCompute数据源呈未绑定状态,单击绑定按钮进行绑定。
后续步骤
现在,您已经完成了环境的准备,您可以继续下一个教程。在下一个教程中,您将学习将用户基本信息数据、用户网站访问日志数据同步至MaxCompute中。详情请参见同步数据。DataWorks也为您提供了本教程相关代码,您可一键导入网站用户画像分析模板,直接体验配置数据质量监控。导入用户画像分析模板可参见:画像分析模板导入。