本教程以用户画像分析为例,通过使用DataWorks完成数据同步、数据加工、质量监控的全流程操作。为保证您可以顺利完成本教程,您需要准备教程所需的EMR集群、DataWorks工作空间,并做好相关的环境配置。
前提条件
步骤一:创建OSS Bucket
本教程需要您创建一个OSS Bucket,后续会将用户信息和网站访问日志信息同步到OSS Bucket中,用于数据建模和数据分析。
步骤二:创建EMR集群
本教程需要您创建一个EMR集群,用于集成到DataWorks,使得您能够在DataWorks平台上执行基于EMR集群的数据处理任务。
具体操作,请参见创建集群。在创建EMR集群进行软件配置时,关键参数配置如下:
地域:选择华东2(上海)。
业务场景:选择新版数据湖。
产品版本:选择最新版本。
可选服务:根据实际需求选择组件,其中Hive组件在本案例中必选。
元数据:选择DLF统一元数据。
集群存储根路径:选择步骤一中创建的已开通HDFS服务的OSS Bucket。
对于EMR集群的不同配置,DataWorks产品支持情况存在一定差异。如果您需要在DataWorks上进行EMR任务开发,建议您在创建EMR集群前先参考DataWorks on EMR集群配置最佳实践。
步骤三:创建DataWorks工作空间
在DataWorks工作空间里进行任务开发前您需要先创建一个DataWorks工作空间。
因本示例提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源出现网络不可达的情况。为了简化您的操作流程,建议您在生产、环境是否隔离这一参数处选择否。
登录DataWorks控制台。
单击左侧导航栏中的工作空间。进入工作空间列表页面。
将页面顶部导航栏的地域列表切换为华东2(上海)地域。
单击创建工作空间,输入工作空间名称。具体操作,请参见创建工作空间。
步骤四:配置DataWorks on EMR开发环境
在DataWorks上运行EMR作业前,您需要配置如下开发环境:
购买并配置Serverless资源组。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。
找到购买的Serverless资源组,单击操作列的绑定工作空间,根据界面提示将资源组绑定至已创建的DataWorks工作空间。
为资源组配置公网访问能力。
登录专有网络-公网NAT网关控制台,在顶部菜单栏切换至华东2(上海)地域。
单击创建公网NAT网关。配置相关参数。
参数
取值
所属地域
华东2(上海)。
所属专有网络
选择资源组绑定的VPC和交换机。
您可以前往DataWorks管理控制台,切换地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定的专有网络和交换机。VPC和交换机的更多信息,请参见什么是专有网络。
关联交换机
访问模式
VPC全通模式(SNAT)。
弹性公网IP
新购弹性公网IP。
关联角色创建
首次创建NAT网关时,需要创建服务关联角色,请单击创建关联角色。
说明上表中未说明的参数保持默认值即可。
单击立即购买,勾选服务协议后,单击确认订单,完成购买。
(可选)添加工作空间成员并授权。
只有工作空间成员才可以在DataStudio内运行EMR任务。您可以将其他RAM用户添加为工作空间成员,详情请参见空间级模块权限管控。
说明阿里云主账号和创建工作空间的RAM用户自动成为工作空间的成员,且角色为空间管理员。
注册EMR集群至DataWorks并初始化资源组。
只有将集群注册至DataWorks,才可以在DataWorks上使用EMR集群。详情请参见注册EMR集群至DataWorks。
重要初始化资源组时,请务必确保初始化成功,否则可能导致任务运行失败。如果初始化失败,请根据界面提示查看失败原因并进行连通性诊断。
关键参数配置如下:
集群所属云账号:选择当前阿里云主账号。
集群类型:选择数据湖(DataLake)。
默认访问身份:选择集群账号:hadoop。