文档

对接使用CDH与CDP

更新时间:

DataWorks 提供了与CDH(Cloudera's Distribution Including Apache Hadoop,以下简称 CDH)与CDP(Cloudera Data Platform,以下简称CDP)集群对接的能力,在保留CDH集群或CDP集群作为存储和计算引擎的前提下,您可以使用DataWorks的任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理功能。CDP与CDH基于DataWorks的开发操作基本一致,本文以CDH为例为您介绍DataWorks如何对接使用CDH与CDP。

前提条件

  • 已部署CDH。

    支持非阿里云ECS环境部署的CDH,但需要确保部署CDH集群的服务器环境和阿里云网络可达。通常您可以使用高速通道、VPN等网络连通方案来保障网络可达。

  • 已开通DataWorks服务并创建好对接使用CDH的工作空间。

  • 拥有一个有工作空间的管理员权限的账号,在DataWorks中注册CDH集群配置的操作仅空间管理员可操作。为账号授权空间管理员权限的操作可参见。空间级模块权限管控

  • 已购买并创建DataWorks的新版资源组(通用型资源组)或独享调度资源组。详情可参见资源组管理

在DataWorks中对接使用CDH引擎时,主要配置流程为:

  1. Step1:获取CDH集群配置信息

  2. Step2:配置网络联通

  3. Step3:在DataWorks中注册CDH集群

对接配置完成后,您可在DataWorks上开发CDH引擎的数据开发任务并运行,并在运行后通过DataWorks的运维中心查看任务运行情况。详情可参见使用DataWorks进行数据开发运维监控配置

同时您可使用DataWorks的数据质量、数据地图功能,进行数据和任务管理。详情可参见数据质量规则配置数据地图配置

使用限制

  • 在DataWorks中使用CDH相关功能,必须使用DataWorks的新版资源组(通用型资源组)或独享调度资源组。

  • 您需要先保障CDH集群和资源组的网络可达后再进行后续的相关操作。

  • 目前DataWorks支持的CDH版本有:cdh6.1.1、cdh5.16.2、cdh6.2.1和cdh6.3.2。

Step1:获取CDH集群配置信息

  1. 获取CDH版本信息,用于后续DataWorks中新增CDH引擎配置。

    登录Cloudera Manager,在主界面集群名称旁可查看当前部署的CDH集群版本,如下图所示。cdh版本信息

  2. 获取Host地址与组件地址信息,用于后续DataWorks中新增CDH引擎配置。

    • 方式一:使用DataWorks JAR包工具获取。

      1. 登录Cloudera Manager,下载工具JAR包。

        wget https://dataworks-public-tools.oss-cn-shanghai.aliyuncs.com/dw-tools.jar
      2. 运行工具JAR包。

        export PATH=$PATH:/usr/java/jdk1.8.0_181-cloudera/bin
        java -jar dw-tools.jar <user> <password>

        其中<user><password>分别是Cloudera Manager的用户名和密码。

      3. 在运行结果中查看并记录CDH的Host地址和组件地址信息。组件信息

    • 方式二:在Cloudera Manager页面手动查看。

      登录Cloudera Manager,在主机(Hosts)下拉菜单中选择角色(Roles),根据关键字和图标识别出需要配置的服务,然后看左侧对应的主机(Host),按照格式补全要填写的地址。默认端口号可以参考方法一的输出结果样例。方法二其中

      • HS2:HiveServer2

      • HMS:Hive Metastore

      • ID:Impala Daemon

      • RM:YARN ResourceManager

  3. 获取配置文件,用于后续上传至DataWorks。

    1. 登录Cloudera Manager。

    2. 状态页面,单击集群的下拉菜单中的查看客户端配置URL

      配置文件

    3. 在对话框中下载YARN的配置包。

      配置文件2

  4. 获取CDH集群的网络信息,用于后续与DataWorks的独享调度资源组网络联通配置。

    1. 登录部署CDH集群的ECS控制台

    2. 在实例列表中找到部署CDH集群的ECS实例,在实例详情中查看并记录安全组专有网络虚拟交换机信息。

Step2:配置网络联通

DataWorks的资源组购买创建完成后,您需要配置网络连通,确保资源组所属的VPC与CDH集群所在的网络可连通。

  1. 进入资源组网络配置页面。

    1. 登录DataWorks控制台

    2. 在左侧导航栏,单击资源组列表,找到已购买的资源组。

    3. 单击已购买的资源组后的网络设置

  2. 绑定VPC。

    • 如果CDH集群部署在同账号同地域的阿里云ECS上,则在专有网络绑定页签,单击新增绑定,在配置页面选择上述步骤4记录的CDH集群所在VPC、可用区、交换机、安全组。

    • 如果CDH集群部署在其他网络环境中,请参见网络连通

  3. 配置Host。

    Host配置页签,单击批量修改,在对话框中配置为上述步骤2中记录的Host地址信息。host配置

Step3:在DataWorks中注册CDH集群

您需要将CDH集群注册至工作空间后,才可在该工作空间使用此集群进行相关数据开发工作。注册集群,详情请参见注册CDH或CDP集群至DataWorks

说明
  • 仅拥有空间管理员权限的账号才能注册集群。

  • 标准模式工作空间下,开发环境和生产环境需分别配置集群信息。工作空间环境介绍,详情请参见必读:简单模式和标准模式的区别

其中:

  • 集群名称:可自定义集群名称。

  • 版本信息:根据实际情况选择对应的CDH和组件版本。

  • 集群连接信息:根据上述步骤Step1:获取CDH集群配置信息中记录的组件地址信息填写。

    • Yarn的jobhistory.webapp.address信息:yarn.resourcemanager.address地址的端口修改为8088即为jobhistory.webapp.address

    • Presto的JDBC地址:Presto非CDH默认组件,需要根据实际部署情况填写访问地址。

使用DataWorks进行数据开发

完成新增CDH引擎后,您就可以在DataStudio(数据开发)中创建Hive、Spark、MapReduce、Impala或者Presto任务节点,直接运行任务或者设置周期调度运行任务。以下以创建并运行一个Hive任务为例,为您介绍在DataWorks中如何进行CDH引擎的数据开发和运行。

  1. 进入数据开发页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的数据建模与开发 > 数据开发,在下拉框中选择对应工作空间后单击进入数据开发

  2. 创建业务流程,根据界面提示填写业务流程信息。

  3. 单击创建好的业务流程,在CDH引擎文件夹上右键选择新建节点 > CDH Hive

  4. 在右侧代码编辑框中编写Hive SQL,完成代码编辑后单击顶部运行运行图标,选择调度资源组并确认,运行完毕后可以查看Hive SQL的运行结果。

  5. 如果想要设置任务周期调度,单击右侧的调度配置,在弹窗中设置时间属性、资源属性和调度依赖,完成后单击提交任务,提交成功后任务就可以按照配置周期调度运行,调度配置详情可参见 配置基础属性

  6. 在运维中心中可以查看提交的周期任务,在周期实例中查看任务周期调度的运行情况。详细可参见查看并管理周期任务

运维监控配置

CDH引擎的任务支持使用DataWorks运维中心的智能监控功能,通过自定义报警规则、配置任务告警,根据设置的报警规则自动触发任务运行异常报警。自定义报警规则操作可参见规则管理,配置任务告警操作可参见基线管理

数据质量规则配置

在DataWorks上使用CDH引擎时,可使用DataWorks的数据质量服务进行数据查、对比、质量监控、SQL扫描和智能报警等功能,数据质量服务的详细操作可参见数据质量概述

数据地图配置

在DataWorks上使用CDH引擎时,可使用DataWorks的数据地图服务采集CDH集群中Hive数据库、表、字段、分区元数据,便于实现全局数据检索、元数据详情查看、数据预览、数据血缘和数据类目管理等功能。

说明

当前仅支持Hive数据库。

DataWorks上数据地图功能的详细介绍与配置指导可参见数据地图概述