准备工作:获取CDH或CDP集群信息并配置网络连通

DataWorks提供了与CDH(Cloudera’s Distribution Including Apache Hadoop,以下简称CDH) 和CDP(Cloudera Data Platform,以下简称CDP)集群对接的能力,您可在DataWorks中注册CDH及CDP集群,进行任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。注册CDH或CDP集群前,您需先获取注册集群所需的配置信息,并配置集群与资源组网络连通。本文以CDH集群为例,为您介绍如何获取集群信息,并配置集群与资源组网络连通。

背景信息

  • CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。

  • CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建为单独的用户数据使用。

您可在DataWorks中注册CDH及CDP集群,基于业务需求进行相关任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。

前提条件

  • 已部署CDH集群。

    DataWorks支持使用非阿里云ECS环境部署的CDH,但需确保部署CDH的环境和阿里云专有网络可连通。通常您可使用高速通道、VPN等网络连通方案来保障网络的连通性。

  • 已购买DataWorks新版Serverless资源组(推荐)或旧版独享调度资源组。

    DataWorks资源组购买后,默认与其他云产品网络不连通。在对接使用CDH时,需先保障CDH集群和资源组间网络连通,才可进行后续相关操作。

    说明
    • Serverless资源组(推荐)为通用型资源组,可满足多种任务类型(例如,数据同步、任务调度)的场景应用,购买详情请参见新增和使用Serverless资源组。新用户(即在当前地域未开通过任意版本DataWorks的用户)仅支持购买新版资源组。

    • 若您已购买过旧版独享调度资源组,也可使用该资源组运行CDH或CDP任务。详情请参见使用独享调度资源组

获取CDH集群配置信息

您需按如下步骤获取CDH配置信息,用于后续在DataWorks注册CDH集群使用。

  1. 获取CDH版本信息。

    登录Cloudera Manager,在主界面集群名称右侧查看当前部署的CDH集群版本,如下图所示。cdh版本信息

  2. 获取Host地址与组件地址信息,用于注册CDH集群时配置集群连接信息。

    在Cloudera Manager页面手动查看

    登录Cloudera Manager,在主机(Hosts)下拉菜单中选择角色(Roles),根据关键字和图标识别需要配置的服务,然后查看左侧对应的主机(Host),按照格式补全要填写的地址。方法二

    其中:

    • HS2表示:HiveServer2

    • HMS表示:Hive Metastore

    • ID表示:Impala Daemon

    • RM表示:YARN ResourceManager

  3. 获取配置文件,用于后续注册CDH集群时上传使用。

    1. 登录Cloudera Manager。

    2. 状态页面,单击集群的下拉菜单中的查看客户端配置 URL配置文件

    3. 以YARN为例,在对话框中下载配置包。配置文件2

  4. 获取CDH集群的网络信息,用于后续与DataWorks资源组配置网络连通。

    1. 登录部署CDH集群的ECS控制台

    2. 在实例列表中找到部署CDH集群的ECS实例,单击实例名称进入实例详情页,查看并记录安全组专有网络虚拟交换机信息。

配置网络连通

Serverless资源组

本文以Serverless资源组示例,为您介绍资源组与CDH集群的网络连通配置。

DataWorks的Serverless资源组购买后,默认与其他云产品网络不可达,在对接使用CDH时,您需获取部署CDH集群的网络信息,将资源组绑定至CDH集群所在的VPC网络中,保障CDH集群与资源组的网络连通。

  1. 进入Serverless资源组网络配置页面。

    1. 登录DataWorks控制台

    2. 在左侧导航栏,单击资源组,默认进入资源组列表独享资源组页签。

    3. 单击已购买资源组后的网络设置

  2. 绑定VPC。

    专有网络绑定页签下面的数据调度 & 数据集成里,单击新增绑定,在配置页面选择上述获取CDH集群配置信息:步骤4记录的CDH集群所在VPC、可用区、交换机。

  3. 配置Host。

    进入云解析DNS控制台。将获取CDH集群配置信息:步骤2中记录的Host地址信息,在云解析DNS的内网DNS解析 (PrivateZone)中进行权威解析。

    1. 开通内网DNS解析,详情请参见开通内网DNS解析

      说明

      如已开通内网DNS解析您可忽略此步骤。

    2. 添加内置权威域名,详情请参见添加内置权威域名

      说明
      • 本文以在Cloudera Manager页面手动查看获取的主机域名cdh-header-1-cn-shanghai为例,对域名cdh-header-1-cn-shanghai进行权威解析,您可根据自己主机域名配置情况调整该参数。

      • 解析的IP为CDH集群所在的ECS实例私有IP地址

    3. 设置域名生效范围,详情请参见设置域名生效范围

      说明

      设置域名生效范围的VPC时,您需选择CDH集群、资源组绑定的VPC。

独享调度资源组

本文以独享调度资源组示例,为您介绍资源组与CDH集群的网络连通配置。

DataWorks的独享调度资源组购买后,默认与其他云产品网络不可达,在对接使用CDH时,您需获取部署CDH集群的网络信息,将独享调度资源组绑定至CDH集群所在的VPC网络中,保障CDH集群与独享调度资源组的网络连通。

  1. 进入独享资源组网络配置页面。

    1. 登录DataWorks控制台

    2. 在左侧导航栏,单击资源组,默认进入资源组列表独享资源组页签。

    3. 单击已购买的独享调度资源组后的网络设置

  2. 绑定VPC。

    专有网络绑定页签,单击新增绑定,在配置页面选择上述获取CDH集群配置信息:步骤4记录的CDH集群所在VPC、可用区、交换机、安全组。

  3. 配置Host。

    Host配置页签,单击批量修改,在对话框中配置为上述获取CDH集群配置信息:步骤2中记录的Host地址信息。host配置

后续步骤

完成本文准备工作后,您可开始在DataWorks注册CDH集群进行相关开发操作,详情请参见注册CDH或CDP集群至DataWorks