DataWorks提供了与CDH(Cloudera’s Distribution Including Apache Hadoop,以下简称CDH) 和CDP(Cloudera Data Platform,以下简称CDP)集群对接的能力,您可在DataWorks中注册CDH及CDP集群,进行任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。
背景信息
- CDH是Cloudera的开源平台发行版,提供开箱即用的集群管理、集群监控、集群诊断等功能,并支持使用多种组件,助力您执行端到端的大数据工作流程。 
- CDP是跨平台收集和整合客户数据的公共数据平台,可帮助您收集实时数据,并将其构建为单独的用户数据使用。 
您可在DataWorks中注册CDH及CDP集群,基于业务需求进行相关任务开发、调度、数据地图(元数据管理)和数据质量等一系列的数据开发和治理操作。
前提条件
- 当前工作空间下,拥有以下任意权限策略或角色的用户可注册CDH或CDP集群: - 阿里云主账号。 
- 拥有DataWorks空间管理员角色的工作空间成员。授权详情请参见添加空间成员并管理成员角色权限。 
- 拥有AliyunDataWorksFullAccess权限策略的用户,且该用户为DataWorks工作空间成员。授权权限策略,详情请参见RAM用户授权、RAM角色授权;添加用户为工作空间成员,详情请参见添加空间成员并管理成员角色权限。 
 
- 已完成CDH或CDP集群的相关部署,并获取注册集群所需的配置信息。详情请参见准备工作:获取CDH或CDP集群信息并配置网络连通。 
使用限制
- 仅支持使用新版Serverless资源组(推荐)或旧版独享调度资源组运行CDH或CDP集群任务。 说明- Serverless资源组为通用型资源组,可满足多种任务类型(例如,数据同步、任务调度)的场景应用,购买详情请参见新增和使用Serverless资源组;若您已购买过旧版独享调度资源组,也可使用该资源组运行CDH或CD任务,详情请参见使用独享调度资源组。 
- 新用户仅支持购买新版Serverless资源组。 
- 若使用自定义版本集群注册至DataWorks,仅支持使用旧版独享调度资源组。集群版本介绍,请参见步骤二:注册CDH或CDP集群。 
 
- 仅支持华北2(北京)、华东2(上海)、华东1(杭州)、华南1(深圳)、华北3(张家口)、西南1(成都)、德国(法兰克福)地域注册CDH或CDP集群。 
步骤一:进入集群注册页面
- 进入管理中心页面。 - 登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的,在下拉框中选择对应工作空间后单击进入管理中心。 
- 在左侧导航栏单击集群管理进入集群管理页面,单击注册集群,选择开源集群类型为CDH,进入集群注册页面。 
步骤二:注册CDH或CDP集群
- 标准模式工作空间,需分别注册开发环境集群和生产环境集群。工作空间模式介绍,详情请参见必读:简单模式和标准模式的区别。 
- CDP与CDH基于DataWorks的开发操作基本一致,本文以CDH为例,为您介绍在DataWorks如何注册CDH集群。 
- 配置集群基本信息。 - 参数 - 描述 - 集群显示名称 - 定义集群在DataWorks的名称,名称必须唯一。 - 集群版本 - 选择注册的集群版本。 - DataWorks提供的CDH5.16.2、CDH6.1.1、CDH6.2.1、CDH6.3.2、CDP7.1.7版本您可直接选择,该类集群版本配套的组件版本(即集群连接信息中各组件的版本)固定。若该类集群版本不满足您的业务需要,您可选择自定义版本,并按需配置组件版本。 说明- 不同集群版本需配置的组件存在差异,具体请以实际界面为准。 
- 使用自定义版本集群注册至DataWorks,仅支持使用旧版独享调度资源组,且注册完成后需提交工单联系技术支持人员初始化相关环境。 
 - 集群名称 - 用于确定当前所注册集群的配置信息来源。可选择其他工作空间已注册的集群或新建集群: - 已注册集群:当前所注册集群的配置信息,直接引用其他工作空间已注册集群的配置信息。 
- 新建集群:当前注册集群的配置信息需您自行配置。 
 
- 配置集群连接信息。 - 根据实际使用情况选择对应集群的组件版本,并输入获取到的组件地址信息。获取组件信息,详情请参见准备工作:获取CDH或CDP集群信息并配置网络连通。  
- 添加集群配置文件。 - 您可根据需要上传所需组件的配置文件。获取配置文件,详情请参见准备工作:获取CDH或CDP集群信息并配置网络连通。  - 配置文件介绍如下。 - 配置文件 - 描述 - 应用场景 - Core-Site文件 - 包含Hadoop Core库的全局配置。例如,HDFS和MapReduce常用的I/O设置。 - 运行Spark或MapReduce任务,需上传该文件。 - Hdfs-Site文件 - 包含HDFS的相关配置。例如,数据块大小、备份数量、路径名称等。 - Mapred-Site文件 - 用于配置MapReduce相关的参数。例如,配置MapReduce作业的执行方式和调度行为。 - 运行MapReduce任务,需上传该文件。 - Yarn-Site文件 - 包含了与YARN守护进程相关的所有配置。例如,资源管理器、节点管理器和应用程序运行时的环境配置。 - 运行Spark或MapReduce任务,或账号映射类型选择Kerberos时,需上传该文件。 - Hive-Site文件 - 包含了用于配置Hive的各项参数。例如,数据库连接信息、Hive Metastore的设置和执行引擎等。 - 账号映射类型选择Kerberos时,需上传该文件。 - Spark-Defaults文件 - 用于指定Spark作业执行时应用的默认配置。您可通过 - spark-defaults.conf文件预先设定一系列参数(例如,内存大小、CPU核数),Spark应用程序在运行时将采用该参数配置。- 运行Spark任务,需上传该文件。 - Config.Properties文件 - 包含Presto服务器的相关配置。例如,设置Presto集群中协调器节点和工作节点的全局属性。 - 使用Presto组件,且账号映射类型选择OPEN LDAP或Kerberos时,需上传该文件。 - Presto.Jks文件 - 用于存储安全证书,包括私钥和颁发给应用程序的公钥证书。在Presto数据库查询引擎中, - presto.jks文件用于为Presto进程启用SSL/TLS加密通信,确保数据传输的安全。
- 配置集群默认访问身份。 - 用于配置在DataWorks运行CDH集群任务时,使用什么账号访问CDH集群,不同环境支持使用的账号存在差异,具体如下。 说明- 当注册集群时,默认访问身份配置为非集群账号,若该账号未设置账号映射或设置的映射类型选择无认证方式,则任务均会执行失败。 - 环境 - 默认访问身份 - 相关文档 - 开发环境 - 集群账号:无论谁在DataWorks运行CDH任务(例如,阿里云主账号、只拥有开发权限的子账号),实际统一使用指定集群账号访问CDH集群。 
- 映射账号:使用任务执行者运行CDH任务时,需配置任务执行者账号与集群账号的映射关系,配置后,运行任务时实际使用该映射账号访问CDH集群。 
 - 配置账号映射关系,详情请参见设置集群身份映射。 - 生产环境 - 集群账号:无论谁在DataWorks运行CDH任务(例如,阿里云主账号、只拥有开发权限的子账号),实际统一使用指定集群账号访问CDH集群。 
- 映射账号:使用任务责任人、阿里云主账号、阿里云子账号运行CDH任务时,需配置相应账号与集群账号的映射关系,配置后,运行任务时实际使用该映射账号访问CDH集群。 
 
- 单击完成注册,即成功在DataWorks中注册集群。 
步骤三:资源组初始化
初次绑定集群、集群服务配置变更或组件版本升级(例如:修改core-site.xml)请初始化资源组,确保资源组可正常访问CDH集群,资源组当前环境配置可正常执行CDH集群任务。在集群管理页面,找到已注册的CDH集群,单击右上角的资源组初始化,选择所需资源组并进行初始化操作。
- DataWorks仅支持使用新版Serverless资源组(推荐)与独享调度资源组运行CDH集群任务,因此,此处仅支持选择这两类资源组进行初始化操作。若无可用资源组,请根据需要新建,详情请参见新增和使用Serverless资源组、新增和使用独享调度资源组。 
- 使用自定义版本集群注册至DataWorks,仅支持使用旧版独享调度资源组,且注册完成后需提交工单联系技术支持人员初始化相关环境。 
后续步骤
- 设置集群身份映射:当CDH集群默认访问身份非指定集群账号时(即通过DataWorks云账号访问),您需配置DataWorks云账号与集群账号的映射关系,使DataWorks云账号可通过映射的集群指定身份访问CDH集群,实现相关数据权限的隔离和管控。 
- 数据开发:您可在DataStudio(数据开发)中创建Hive、Spark、MapReduce、Impala或者Presto任务节点,进行相关开发操作。详情请参见使用DataWorks进行数据开发。