本教程以用户画像为例,在华东2(上海)地域演示如何使用DataWorks完成数据同步、数据加工和质量监控的全流程操作。为了确保您能够顺利完成本教程,您需要准备教程所需的 EMR Serverless Spark空间、DataWorks工作空间,并进行相关的环境配置。
DataWorks产品准备
本案需确保您已开通DataWorks产品,若您账号下没有DataWorks产品,需在大数据开发治理平台 DataWorks页面进行开通,详情请参见:购买指引。
EMR Serverless Spark 工作空间准备
本案例采用EMR Serverless Spark进行实验,请确保您已拥有Spark空间,若您没有Spark空间,需在E-MapReduce Serverless Spark 版页面进行开通。
地域:华东2(上海)。
付费类型:按量付费。
工作空间名称:自定义名称即可。
DLF 作为元数据服务:选择需要绑定的 DLF 数据目录(Catalog),如不同 EMR 集群期望元数据完全隔离,请选择不同的 Catalog。
工作空间基础路径:请选择一个 OSS Bucket 路径,用于存储任务作业的日志文件。
工作空间类型:本实验选择专业版。
说明专业版:该工作空间包含所有基础版的功能,以及高级特性和性能改进项。更适合大规模 ETL 作业。
基础版:该工作空间包含所有基础功能,以及提供具有优势的计算引擎。
私有OSS环境准备
本教程需要您创建一个OSS Bucket,后续会将用户信息和网站访问日志信息同步到OSS Bucket中,用于数据建模和数据分析。
DataWorks环境准备
在准备好DataWorks、EMR Serverless Spark以及OSS对象存储产品后,可以在DataWorks内创建工作空间、新增注册Spark集群以及创建数据源,为后续的同步数据、加工数据提供环境。
创建DataWorks工作空间
登录DataWorks控制台。
单击左侧导航栏上的工作空间列表,进入空间列表页面。
单击创建工作空间,在左侧弹出的创建工作空间面板内新建生产、开发环境隔离的标准模式空间。
因本示例提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源时出现网络不可达的情况,如果您想要更简便的操作可以在生产、环境是否隔离这一参数处选择否。
创建资源组
在使用DataWorks前,必须新建资源组,为数据同步与调度提供运行资源,所以需要确保资源组与Serverless Spark之间的网络正常联通。
新购资源组:在DataWorks上运行Spark任务需使用资源组。关于资源组的购买,详情请参见新增和使用Serverless资源组。
网络连通:确保资源组与数据源以及集群EMR Serverless Spark网络连通,网络连通方案,详情请参见网络连通方案。
注册EMR Serverless Spark集群
用户画像分析的流程中的数据存储与数据处理,将在EMR Serverless Spark集群中进行,需您提前注册好相应的Spark集群。
进入管理中心页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的管理中心,在下拉框中选择对应工作空间后单击进入管理中心。
单击左侧导航栏的集群管理进入集群管理页面后,单击注册集群,即可在弹窗内选择E-MapReduce,进行配置EMR Serverless Spark集群。
注册E-MapReduce 集群
集群显示名称:自定义即可。
集群所属云账号:选择当前阿里云主账号。
集群类型:EMR Serverless Spark。
E-MapReduce工作空间:选择准备的EMR Serverless Spark 工作空间准备。
默认引擎版本:在DataStudio中新建EMR Spark任务时,将会默认使用该引擎版本。如需面向不同任务设置不同的引擎版本,请在Spark任务编辑窗口的“高级设置”中进行定义。
默认资源队列:在DataStudio中新建EMR Spark任务时,将会默认使用该资源队列。如需面向不同任务设置不同的资源队列,请在Spark任务编辑窗口的“高级设置”中进行定义。
默认SQL Compute:在DataStudio中新建EMR Spark SQL任务时,将会默认使用该SQL Compute。如需面向不同任务设置不同的SQL Compute,请在Spark任务编辑窗口的“高级设置”中进行定义。
默认访问身份:开发环境默认为执行者,生产环境可选择阿里云主账号、阿里云RAM子账号、任务责任人。
说明本教程配置如上,若您的场景与此不同,可参考注册EMR集群至DataWorks。
创建数据源
本教程为您提供了存储用户信息数据的MySQL数据库,以及存储用户日志数据的OSS对象存储,需要在DataWorks上将其创建为数据源以供数据同步使用。
平台已提供本教程所需的测试数据及数据源,您需将该数据源添加至您的工作空间,即可在工作空间访问平台提供的测试数据。
本教程提供数据仅作为阿里云大数据开发治理平台DataWorks数据应用实操使用,所有数据均为人工Mock数据,并且只支持在数据集成模块读取数据。
在私有OSS环境准备步骤中创建的OSS对象存储的Bucket将用于接收MySQL数据源的用户信息数据与HttpFile的日志数据信息。
创建MySQL数据源
本次实验创建MySQL数据源的数据库由平台提供,作为数据集成任务的数据来源侧提供用户信息数据。
在管理中心页面,单击进入 页面后单击新增数据源。
在新增数据源对话框中,搜索选择数据源类型为MySQL。
在创建MySQL数据源对话框,配置各项参数。本教程需按示例值填写。
参数
描述
数据源类型
选择连接串模式。
数据源名称
输入数据源名称,本教程请填写user_behavior_analysis_mysql。
数据源描述
输入DataWorks案例体验专用数据源,在离线同步配置时读取该数据源即可访问平台提供的测试数据,该数据源只支持数据集成场景去读取,其他模块不支持使用。
JDBC URL
输入
jdbc:mysql://rm-bp1z69dodhh85z9qa.mysql.rds.aliyuncs.com:3306/workshop
。说明您可以通过公网连接串的形式添加数据源,即通过公网地址访问平台提供的用于教程测试使用的RDS。
用户名
输入用户名,本教程请填写workshop。
密码
输入密码,本教程请填写workshop#2017。
认证选项
无认证。
单击指定的资源组连通状态列的测试连通性,等待界面提示测试完成,连通状态为可连通。
单击完成。
创建HttpFile数据源
本次实验创建HttpFile数据源为OSS对象存储,该OSS对象存储由平台提供,作为数据集成任务的数据来源侧提供日志数据。
进入数据源页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的管理中心,在下拉框中选择对应工作空间后单击进入管理中心。
进入工作空间管理中心页面后,单击左侧导航栏的
,进入数据源页面。
单击新增数据源
在新增数据源对话框中,搜索选择数据源类型为HttpFile。
在创建HttpFile数据源对话框中,配置各项参数。本教程需按示例值填写。
参数
描述
数据源名称
输入数据源名称,本教程请填写user_behavior_analysis_httpfile。
数据源描述
输入DataWorks案例体验专用数据源,在离线同步配置时读取该数据源即可访问平台提供的测试数据,该数据源只支持数据集成场景去读取,其他模块不支持使用。
适用环境
勾选开发和生产。
说明开发环境的数据源创建完成后,需要勾选生产,以同样方式创建生产环境的数据源,否则任务生产执行会报错。
URL域名
输入
https://dataworks-workshop-2024.oss-cn-shanghai.aliyuncs.com
。单击指定的资源组连通状态列的测试连通性,等待界面提示测试完成,连通状态为可连通。
重要需确保至少一个资源组为可连通状态,否则此数据源无法使用向导模式创建同步任务。
单击完成创建。
添加私有OSS数据源
本次实验创建私有OSS数据源的OSS对象存储需您自行准备,将作为数据集成的数据去向来接收用户信息数据与用户日志信息数据。
该私有OSS数据源指的是您自己的OSS对象存储创建的OSS数据源,用来存储从DataWorks文档提供的MySQL中导入的用户信息数据与存储从DataWorks文档提供的OSS对象存储创建的HttpFile数据源中导入的日志数据。
在管理中心页面,单击进入 页面后单击新增数据源。
在新增数据源对话框中,搜索选择数据源类型为OSS。
在新增OSS数据源对话框中,配置各项参数。
参数
描述
数据源名称
输入数据源的名称,本示例为test_g。
数据源描述
对数据源进行简单描述。
Endpoint
输入
http://oss-cn-shanghai-internal.aliyuncs.com
Bucket
您准备环境时创建的OSS Bucket的名称,示例为dw-emr-demo
访问模式
RAM角色授权模式
通过STS授权的方式允许云产品服务账号扮演相关角色来访问数据源,具备更高安全性,详见:通过RAM角色授权模式配置数据源。
Access Key模式
AccessKey ID
当前登录账号的AccessKey ID,您可以进入安全信息管理页面复制AccessKey ID。
AccessKey Secret
输入当前登录账号的AccessKey Secret。
重要AccessKey Secret只在创建时显示,不支持后续再次查看,请妥善保管。如果AccessKey泄露或丢失,请删除并创建新的AccessKey。
说明访问模式在RAM角色授权模式和Access Key模式选择其一即可。
单击指定资源组连通状态列的测试连通性,等待界面提示测试完成,连通状态为可连通。
重要需确保至少一个资源组为可连通状态,否则此数据源无法使用向导模式创建同步任务。
单击完成。
后续步骤
现在,您已经完成了环境的准备,可以继续下一个教程。在下一个教程中,您将学习如何将用户基本信息数据、用户网站访问日志数据同步至OSS中,再通过Spark SQL创建外部表来访问私有OSS数据存储。详情请参见同步数据。