配置Hadoop集群作为计算源-智能数据建设与治理 Dataphin-阿里云

使用限制

仅当计算引擎为CDH5.x、CDH6.x、Cloudera Data Platform 7.x、E-MapReduce3.x、E-MapReduce5.x、亚信DP5.3或华为FusionInsight 8.x时，支持管理Hadoop集群。

权限说明

超级管理员、系统管理员和拥有Hadoop集群-管理权限的自定义全局角色，均可创建和管理Hadoop集群。同时，这些用户可设置在创建Hadoop计算源时可引用该集群的用户，以及为该集群指定集群管理员。
支持集群管理员对自己负责的集群进行管理。
拥有计算源管理-新建全局角色的用户，可以在创建Hadoop计算源时，选择引用自己有使用权限的Hadoop集群。

创建Hadoop集群

在Dataphin首页的顶部菜单栏中，选择规划 > 计算源。
在计算源页面，单击管理Hadoop集群。
在管理Hadoop集群对话框中，单击+新建Hadoop集群。

在新建Hadoop集群页面，配置以下参数。

基本信息

参数	描述
集群名称	输入当前集群的名称，仅支持中文、英文、数字、下划线（_）和短划线（-），长度不超过128个字符。
集群管理员	选择一个或多个当前租户下的成员，成为当前集群的集群管理员。集群管理员可管理当前集群，支持编辑、查看历史版本和删除操作。
描述（非必选）	输入当前集群的简单描述，长度不超过128个字符。

集群安全管控
可使用成员：新建计算源时哪些用户可以引用当前集群的配置信息，可选择拥有“新建计算源”权限的角色或指定用户。
- 拥有“新建计算源”权限的角色：默认选中。
- 指定用户：支持选择一个或多个个人账号和用户组。

集群配置

参数	描述
集群存储	选择HDFS或OSS-HDFS。当选择为HDFS时，支持在NameNode配置项中新增NameNode。当选择为OSS-HDFS时，还需配置集群存储跟目录、AccessKey ID和AccessKey Secret。说明仅当计算引擎为E-MapReduce5.x时，支持配置此项。其他计算引擎均默认为HDFS。
NameNode	单击+新增，在新增NameNode对话框中配置相关参数，支持新增多个NameNode。 NameNode为HDFS集群中NameNode节点的HostName或者IP和端口。配置样例： NameNode：193.168.xx.xx Web UI Port：50070 IPC Port：8020 Web UI Port和IPC Port两个端口中，至少选中一个。配置完成后NameNode为`host=192.168.xx.xx,webUiPort=50070,ipcPort=8020`。说明当集群存储为HDFS时，支持配置此项。
集群存储根目录	可查看EMR集群基础信息获取，格式为`oss://<Bucket>.<Endpoint>/`。说明仅当计算引擎为E-MapReduce5.x，且集群存储选择为OSS-HDFS时，支持配置此项。
AccessKey ID、AccessKey Secret	输入OSS的访问AccessKey ID和AccessKey Secret。说明此处填写的配置优先级高于core-site.xml中配置的AccessKey。仅当计算引擎为E-MapReduce5.x，且集群存储选择为OSS-HDFS时，支持配置此项。
core-site.xml	上传当前计算引擎的core-site.xml、hdfs-site.xml、hive-site.xml、hivemetastore-site.xml、yarn-site.xml和其他配置文件。说明仅当计算引擎为E-MapReduce5.x，且集群存储选择为OSS-HDFS时，无需上传hdfs-site.xml文件。当Hive元数据获取方式选择为HMS时，必须上传hive-site.xml文件。当计算引擎为E-MapReduce5.x或华为FusionInsight 8.x，且Hive元数据获取方式选择为HMS时，必须上传hivemetastore-site.xml文件。
hdfs-site.xml
hive-site.xml（非必选）
hivemetastore-site.xml（非必选）
yarn-site.xml（非必选）
其他配置文件（非必选）
任务执行机器	配置MapReduce或Spark Jar的执行机器的连接地址。格式为`hostname:port`或`ip:port`，port默认为22且非必填。
执行用户名、密码	MR任务执行、HDFS读存等登录任务执行机器的用户名和密码，需确保有任务提交权限。
认证方式	支持无认证和Kerberos认证方式。 Kerberos是一种基于对称密钥技术的身份认证协议，可以为其他服务提供身份认证功能，且支持SSO（即客户端身份认证后，可以访问多个服务，例如HBase和HDFS）。当认证方式选择Kerberos时，还需选择Kerberos配置方式。 Krb5认证文件：上传Krb5文件进行Kerberos认证。 KDC Server地址：KDC服务器地址，辅助完成Kerberos认证。支持配置多个KDC Server服务地址，使用英文分号（;）分隔。说明当计算引擎类型为E-MapReduce 5.x时，仅支持krb5文件配置配置方式。

HDFS信息配置

参数

描述

认证方式

支持无认证和Kerberos。

如果Hadoop集群有Kerberos认证，则需要开启HDFS Kerberos并上传Keytab File认证文件与配置Principal。

Keytab File：上传keytab文件，您可以在HDFS Server上获取keytab文件。
Principal：填写HDFS Keytab File文件对应的Kerberos认证用户名。

说明

仅当计算引擎为E-MapReduce 5.x，且集群存储选择为OSS-HDFS时，无需配置此项。

HDFS User（非必选）

指定文件上传的用户名，如果不填则默认为执行用户名。

说明

仅当认证方式选择为无认证时，支持配置此项。

Hive计算引擎配置

参数	描述
JDBC URL	支持配置以下三种连接地址： Hive Server的连接地址，格式为`jdbc:hive://{连接地址}:{端口}/{数据库名称}`。 ZooKeeper的连接地址。例如`jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2`。开启Kerberos的连接地址，格式为`jdbc:hive2://{连接地址}:{端口}/{数据库名称};principal=hive/_HOST@xx.com`。
认证方式	支持无认证、LDAP和Kerberos认证方式。无认证：无认证方式需填写Hive服务的用户名。 LDAP：LDAP认证方式需填写Hive服务的用户名和密码。 Kerberos：如果Hadoop集群有Kerberos认证，则需要开启Hive Kerberos并上传Keytab File认证文件与配置Principal。 Keytab File：上传keytab文件，您可以在Hive Server上获取keytab文件。 Principal：填写Hive Keytab File文件对应的Kerberos认证用户名。
用户名	填写Hive服务的用户名。说明认证方式选择为无认证或LDAP时，支持配置此项。所填写的用户须确保具备任务的执行权限，以保证任务的正常执行。
密码	填写Hive服务的用户的密码。说明仅当认证方式选择为LADP时，支持配置此项。
执行引擎	默认：Default：绑定该计算源的项目下的任务（包括逻辑表任务）默认使用该执行引擎。自定义：选择其他计算引擎类型。

Hive元数据配置

元数据获取方式：支持元数据库、HMS、DLF三种源数据获取方式。获取方式不同，所需配置信息不同。

重要

仅当计算引擎为E-MapReduce5.x时，支持选择DLF获取方式。
若使用DLF方式获取元数据，请先在配置文件中上传hive-site.xml配置文件。

元数据获取方式	参数	描述
元数据库	数据库类型	根据集群中使用的元数据库类型，选择数据库。Dataphin支持选择MySQL。支持MySQL的版本包括MySQL 5.1.43、MySQL 5.6/5.7和MySQL 8版本。
	JDBC URL	填写目标数据库的JDBC连接地址。例如： MySQL：格式为`jdbc:mysql://{连接地址}[,failoverhost...]{端口}/{数据库名称} [?propertyName1][=propertyValue1][&propertyName2][=propertyValue2]...`。
	用户名、密码	填写登录元数据库的用户名和密码。
HMS	认证方式	HMS获取方式支持无认证、LDAP、Kerberos三种认证方式。Kerberos认证方式需上传Keytab File文件及配置Principal。
DLF	Endpoint	填写集群在DLF数据中心所在地域的Endpoint。如何获取，请参见DLF Region和Endpoint对照表。
DLF	AccessKey ID、AccessKey Secret	填写集群所在账号的AccessKey ID和AccessKey Secret。您可在用户信息管理页面，获取账号的AccessKey ID和AccessKey Secret。

Spark Jar服务配置

重要

由于性能原因，修改Spark执行机器或本地客户端配置，不会做连通性和有效性测试。请修改的第一时间，到研发模块运行测试程序检测Spark服务是否可用。

参数	描述
Spark执行机器	如果Hadoop集群有部署Spark，则支持开启Spark SQL任务。说明使用集群配置中的任务执行机器上的Spark客户端时，需提前在执行机器部署并完成相关设置（例如设置环境变量、创建执行用户、对执行用户授权等）。但仅支持一台执行机器，无法实现高可用和负载均衡。Spark Job提交后，Dataphin侧无法查看日志和终止。
执行用户名、密码	填写登录计算执行机器用户名和密码。说明需确认用户已开通Spark-submit权限。
Spark本地客户端	支持开启或关闭Spark本地客户端。开启后，若存在引用Spark本地客户端的任务，则不支持关闭。使用Spark本地客户端运行Spark程序，须上传yarn-site.xml配置文件，且确保Dataphin与yarn之间的端口连接正常。单击+新增客户端，在新增客户端对话框中输入客户端名称并上传客户端文件。客户端名称：仅支持字母、数字、下划线（_）、短划线（-）和半角句号（.），长度不超过32个字符。同一个Hadoop集群内，客户端名称唯一（区分大小写）。客户端文件：上传客户端文件，文件格式仅支持.tgz和.zip。说明可前往https://spark.apache.org/downloads.html下载相应版本的Spark客户端；自有客户端须与社区版目录结构一致，附带Hadoop客户端，并上传完整的压缩包（格式为.tgz或.zip)。Dataphin使用上传的客户端通过调度集群提交Job，可以实现Job的全生命周期管理。客户端上传完成后，您可在客户端列表中，单击图标编辑对应客户端，若上传新的客户端文件，则新的客户端文件将覆盖已有文件。单击图标，可删除对应客户端。说明若已上传的客户端被任务（包括草稿状态任务）引用，则不支持编辑客户端名称和删除客户端操作。
认证方式	支持无认证或Kerberos认证方式。如果Hadoop集群有Kerberos认证，则需要开启Spark Kerberos并上传Keytab File认证文件与配置Principal。 Keytab File：上传keytab文件，您可以在Spark Server上获取keytab文件。 Principal：填写Spark Keytab File文件对应的Kerberos认证用户名。

Spark SQL服务配置

参数	描述
Spark SQL任务	如果Hadoop集群有部署Spark，则支持开启Spark SQL任务。
Spark版本	目前仅支持3.x。
服务类型	选择Spark JDBC访问的目标服务器类型。
JDBC URL	输入JDBC连接方式，例如：`jdbc:hive2://host1:port1/`或`jdbc:kyuubi://host1:port1/`，无需填写database name。
认证方式	支持无认证、LDAP和Kerberos认证方式。无认证：无认证方式需填写Spark服务的用户名。 LDAP：LDAP认证方式需填写Spark服务的用户名和密码。 Kerberos：如果Hadoop集群有Kerberos认证，则需要开启Spark Kerberos并上传Keytab File认证文件与配置Principal。 Keytab File：上传keytab文件，您可以在Spark Server上获取keytab文件。 Principal：填写Spark Keytab File文件对应的Kerberos认证用户名。说明无认证和LDAP方式所填写的用户须确保具备任务的执行权限，以保证任务的正常执行。
用户名	填写Spark服务的用户名。说明认证方式选择为无认证或LDAP时，支持配置此项。所填写的用户须确保具备任务的执行权限，以保证任务的正常执行。
密码	填写Spark服务用户的密码。说明仅当认证方式选择为LADP时，支持配置此项。
SQL任务队列设置	不同服务类型使用不同的任务SQL任务队列。详情如下： Spark Thrift Server：不支持设置任务队列。 Kyuubi：使用HDFS连接信息的优先级队列设置，仅当Kyuubi使用Yarn作为资源调度时生效，生产任务使用Connection共享级别。 Livy：使用HDFS连接信息的优先级队列设置，仅当Livy使用Yarn作为资源调度时生效，即席查询及生产任务均使用新的Connection执行。 MapReduce（MRS）：使用HDFS连接信息的优先级队列设置。

Impala任务配置

参数	描述
Impala任务	如果Hadoop集群有部署Impala，则支持开启Impala任务。
JDBC URL	输入Impala的JDBC连接方式，例如：`jdbc:impala://host:port/`，无需填写schema。
认证方式	支持无认证、LDAP、Kerberos认证方式。无认证：无认证方式需填写Impala用户名。 LDAP：LDAP认证方式需填写Impala的用户名和密码。 Kerberos：Kerberos认证方式需上传Keytab File认证文件与配置Principal。
用户名	填写Impala用户名。说明认证方式选择为无认证或LDAP时，支持配置此项。所填写的用户须确保具备任务的执行权限，以保证任务的正常执行。
密码	填写Impala用户的密码。说明仅当认证方式选择为LADP时，支持配置此项。
开发任务请求池	输入用于开发任务的Impala请求池（request pool）名称。
周期任务请求池	输入用于周期任务的Impala请求池（request pool）名称。

单击测试连接，系统将自动开始测试与各服务间的连接。
测试连接通过后即可进行保存，若测试连接未通过，系统将弹出测试连接未通过对话框，可在对话框中查看未通过测试的服务以及其错误详情。
测试连接通过后，单击保存，完成Hadoop集群的创建。

管理Hadoop集群

在Dataphin首页的顶部菜单栏中，选择规划 > 计算源。
在计算源页面，单击管理Hadoop集群。
在管理Hadoop集群对话框中，查看Hadoop集群列表，列表中展示集群名称、集群管理员、关联计算源、创建信息和修改信息等信息。
- 关联计算源：展示关联计算源的总数，单击图标查看关联计算源的列表，单击计算原名称将跳转至计算源页面。
- 创建信息：记录创建用户和创建时间。
- 修改信息：记录最近一次编辑当前集群的用户名和修改时间。
说明
计算任务只能在一个集群中运行，不同Hadoop集群之间的数据无法进行联接操作。
（可选）可在搜索框中输入集群名称，进行模糊搜索。

在Hadoop集群列表操作列中，对目标集群进行相关管理操作。支持的操作如下。

操作项	说明
查看	单击目标集群操作列的图标，查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户，可下载集群配置文件。
编辑	单击目标集群操作列的图标，打开编辑Hadoop集群页面。您可在编辑Hadoop集群页面中修改已有的配置，其中Spark Jar任务、Spark SQL任务、Impala任务的服务配置若为开启状态，且集群所关联的计算源下已经开启了相应服务，则不可关闭相关服务。编辑完成后，若仅修改了集群基本信息和集群安全管控信息，则无需测试连接，直接保存即可；若有其他修改，则仍需进行测试连接，测试连接成功后单击保存，在弹出的对话框中填写变更说明并单击确定。
克隆	单击目标集群操作列的图标，系统将自动克隆当前集群的所有数据并打开新建Hadoop集群页面，您可在已有配置基础上进行修改。
历史版本	单击目标集群操作列的图标，选择历史版本，对话框中展示当前集群各版本信息，包含版本名称、修改人、变更说明等信息。您可在历史版本进行查看、对比和回滚操作。查看：单击目标版本操作列中的图标，跳转至查看Hadoop集群页面，查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户，可下载集群配置文件。对比：单击目标版本操作列中的图标，跳转至版本对比页面。可在对比页面中筛选的下拉列表中选择不同版本，默认将当前版本的Hadoop集群和目标版本进行对比。回滚：单击目标版本操作列中的图标，在弹出的对话框中单击确定。单击确定后，系统将对该版本的集群信息自动进行测试连接，若测试通过则正常进行回滚，若回滚失败，系统将弹出回滚失败的提示信息，您可在提示信息中查看具体失败原因。若测试连接失败则结束本次回滚，您可在弹出的对话框中查看测试连接失败的服务。
删除	说明仅在当前Hadoop集群下没有关联的计算源时，支持删除当前集群。集群删除后无法恢复。单击目标集群操作列的图标，选择删除，在弹出的对话框中，单击确定。