准备环境

本教程以用户画像分析为例,通过使用DataWorks完成数据同步、数据加工、质量监控的全流程操作。为保证您可以顺利完成本教程,您需要准备教程所需的EMR集群、DataWorks工作空间,并做好相关的环境配置。

前提条件

  • 大数据开发治理平台DataWorks:购买DataWorks,详情请参见购买指引

    说明

    因本示例提供的数据资源都在华东2(上海),建议购买时选择地域为华东2(上海)。

  • 对象存储OSS:已开通OSS服务,具体步骤,请参见开通OSS服务

步骤一:创建OSS Bucket

本教程需要您创建一个OSS Bucket,后续会将用户信息和网站访问日志信息同步到OSS Bucket中,用于数据建模和数据分析。

  1. 登录OSS控制台

  2. 在左侧导航栏,单击Bucket列表,在Bucket列表页面,单击创建Bucket

  3. 创建Bucket对话框中,配置各项参数,单击完成创建

    • Bucket名称:自定义。

    • 地域:选择华东2(上海)

    • HDFS服务:根据界面提示打开HDFS服务开关。

      更多参数说明请参见控制台创建存储空间

  4. 在Bucket列表页单击相应的Bucket名称,进入Bucket的文件管理页面。

步骤二:创建EMR集群

本教程需要您创建一个EMR集群,用于集成到DataWorks,使得您能够在DataWorks平台上执行基于EMR集群的数据处理任务。

具体操作,请参见创建集群。在创建EMR集群进行软件配置时,关键参数配置如下:

  • 地域:选择华东2(上海)

  • 业务场景:选择新版数据湖

  • 产品版本:选择最新版本。

  • 可选服务:根据实际需求选择组件,其中Hive组件在本案例中必选。

  • 元数据:选择DLF统一元数据

  • 集群存储根路径:选择步骤一中创建的已开通HDFS服务的OSS Bucket。

说明

对于EMR集群的不同配置,DataWorks产品支持情况存在一定差异。如果您需要在DataWorks上进行EMR任务开发,建议您在创建EMR集群前先参考DataWorks on EMR集群配置最佳实践

步骤三:创建DataWorks工作空间

在DataWorks工作空间里进行任务开发前您需要先创建一个DataWorks工作空间。

说明

因本示例提供的数据资源都在华东2(上海),建议您将工作空间创建在华东2(上海),以避免工作空间创建在其它区域,添加数据源出现网络不可达的情况。为了简化您的操作流程,建议您在生产、环境是否隔离这一参数处选择

  1. 登录DataWorks控制台

  2. 单击左侧导航栏中的工作空间。进入工作空间列表页面。

  3. 将页面顶部导航栏的地域列表切换为华东2(上海)地域。

  4. 单击创建工作空间,输入工作空间名称。具体操作,请参见创建工作空间

步骤四:配置DataWorks on EMR开发环境

在DataWorks上运行EMR作业前,您需要配置如下开发环境:

  1. 购买并配置Serverless资源组。

    1. 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的资源组,进入资源组列表页面。

    2. 找到购买的Serverless资源组,单击操作列的绑定工作空间,根据界面提示将资源组绑定至已创建的DataWorks工作空间。

    3. 为资源组配置公网访问能力。

      1. 登录专有网络-公网NAT网关控制台,在顶部菜单栏切换至华东2(上海)地域。

      2. 单击创建公网NAT网关。配置相关参数。

        参数

        取值

        所属地域

        华东2(上海)。

        所属专有网络

        选择资源组绑定的VPC和交换机。

        您可以前往DataWorks管理控制台,切换地域后,在左侧导航栏单击资源组列表,找到已创建的资源组,然后单击操作列的网络设置,在数据调度 & 数据集成区域查看绑定的专有网络交换机。VPC和交换机的更多信息,请参见什么是专有网络

        关联交换机

        访问模式

        VPC全通模式(SNAT)。

        弹性公网IP

        新购弹性公网IP。

        关联角色创建

        首次创建NAT网关时,需要创建服务关联角色,请单击创建关联角色

        说明

        上表中未说明的参数保持默认值即可。

      3. 单击立即购买,勾选服务协议后,单击确认订单,完成购买。

  2. (可选)添加工作空间成员并授权。

    只有工作空间成员才可以在DataStudio内运行EMR任务。您可以将其他RAM用户添加为工作空间成员,详情请参见空间级模块权限管控

    说明

    阿里云主账号和创建工作空间的RAM用户自动成为工作空间的成员,且角色为空间管理员。

  3. 注册EMR集群至DataWorks并初始化资源组。

    只有将集群注册至DataWorks,才可以在DataWorks上使用EMR集群。详情请参见注册EMR集群至DataWorks

    重要

    初始化资源组时,请务必确保初始化成功,否则可能导致任务运行失败。如果初始化失败,请根据界面提示查看失败原因并进行连通性诊断。

    关键参数配置如下:

    • 集群所属云账号:选择当前阿里云主账号

    • 集群类型:选择数据湖(DataLake)

    • 默认访问身份:选择集群账号:hadoop