使用限制
仅当计算引擎为CDH5.x、CDH6.x、Cloudera Data Platform 7.x、E-MapReduce3.x、E-MapReduce5.x、亚信DP5.3或华为FusionInsight 8.x时,支持管理Hadoop集群。
权限说明
超级管理员、系统管理员和拥有Hadoop集群-管理权限的自定义全局角色,均可创建和管理Hadoop集群。同时,这些用户可设置在创建Hadoop计算源时可引用该集群的用户,以及为该集群指定集群管理员。
支持集群管理员对自己负责的集群进行管理。
拥有计算源管理-新建全局角色的用户,可以在创建Hadoop计算源时,选择引用自己有使用权限的Hadoop集群。
创建Hadoop集群
在Dataphin首页的顶部菜单栏中,选择规划 > 计算源。
在计算源页面,单击管理Hadoop集群。
在管理Hadoop集群对话框中,单击+新建Hadoop集群。
在新建Hadoop集群页面,配置以下参数。
基本信息
参数
描述
集群名称
输入当前集群的名称,仅支持中文、英文、数字、下划线(_)和短划线(-),长度不超过128个字符。
集群管理员
选择一个或多个当前租户下的成员,成为当前集群的集群管理员。集群管理员可管理当前集群,支持编辑、查看历史版本和删除操作。
描述(非必选)
输入当前集群的简单描述,长度不超过128个字符。
集群安全管控
可使用成员:新建计算源时哪些用户可以引用当前集群的配置信息,可选择拥有“新建计算源”权限的角色或指定用户。
拥有“新建计算源”权限的角色:默认选中。
指定用户:支持选择一个或多个个人账号和用户组。
集群配置
参数
描述
集群存储
选择HDFS或OSS-HDFS。
当选择为HDFS时,支持在NameNode配置项中新增NameNode。
当选择为OSS-HDFS时,还需配置集群存储跟目录、AccessKey ID和AccessKey Secret。
说明仅当计算引擎为E-MapReduce5.x时,支持配置此项。其他计算引擎均默认为HDFS。
NameNode
单击+新增,在新增NameNode对话框中配置相关参数,支持新增多个NameNode。
NameNode为HDFS集群中NameNode节点的HostName或者IP和端口。配置样例:
NameNode:193.168.xx.xx
Web UI Port:50070
IPC Port:8020
Web UI Port和IPC Port两个端口中,至少选中一个。配置完成后NameNode为
host=192.168.xx.xx,webUiPort=50070,ipcPort=8020
。说明当集群存储为HDFS时,支持配置此项。
集群存储根目录
可查看EMR集群基础信息获取,格式为
oss://<Bucket>.<Endpoint>/
。说明仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,支持配置此项。
AccessKey ID、AccessKey Secret
输入OSS的访问AccessKey ID和AccessKey Secret。
说明此处填写的配置优先级高于core-site.xml中配置的AccessKey。
仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,支持配置此项。
core-site.xml
上传当前计算引擎的core-site.xml、hdfs-site.xml、hive-site.xml、hivemetastore-site.xml、yarn-site.xml和其他配置文件。
说明仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,无需上传hdfs-site.xml文件。
当Hive元数据获取方式选择为HMS时,必须上传hive-site.xml文件。
当计算引擎为E-MapReduce5.x或华为FusionInsight 8.x,且Hive元数据获取方式选择为HMS时,必须上传hivemetastore-site.xml文件。
hdfs-site.xml
hive-site.xml(非必选)
hivemetastore-site.xml(非必选)
yarn-site.xml(非必选)
其他配置文件(非必选)
任务执行机器
配置MapReduce或Spark Jar的执行机器的连接地址。格式为
hostname:port
或ip:port
,port默认为22且非必填。执行用户名、密码
MR任务执行、HDFS读存等登录任务执行机器的用户名和密码,需确保有任务提交权限。
认证方式
支持无认证和Kerberos认证方式。
Kerberos是一种基于对称密钥技术的身份认证协议,可以为其他服务提供身份认证功能,且支持SSO(即客户端身份认证后,可以访问多个服务,例如HBase和HDFS)。
当认证方式选择Kerberos时,还需选择Kerberos配置方式。
Krb5认证文件:上传Krb5文件进行Kerberos认证。
KDC Server地址:KDC服务器地址,辅助完成Kerberos认证。支持配置多个KDC Server服务地址,使用英文分号(;)分隔。
说明当计算引擎类型为E-MapReduce 5.x时,仅支持krb5文件配置配置方式。
HDFS信息配置
参数
描述
认证方式
支持无认证和Kerberos。
如果Hadoop集群有Kerberos认证,则需要开启HDFS Kerberos并上传Keytab File认证文件与配置Principal。
Keytab File:上传keytab文件,您可以在HDFS Server上获取keytab文件。
Principal:填写HDFS Keytab File文件对应的Kerberos认证用户名。
说明仅当计算引擎为E-MapReduce 5.x,且集群存储选择为OSS-HDFS时,无需配置此项。
HDFS User(非必选)
指定文件上传的用户名,如果不填则默认为执行用户名。
说明仅当认证方式选择为无认证时,支持配置此项。
Hive计算引擎配置
参数
描述
JDBC URL
支持配置以下三种连接地址:
Hive Server的连接地址,格式为
jdbc:hive://{连接地址}:{端口}/{数据库名称}
。ZooKeeper的连接地址。例如
jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2
。开启Kerberos的连接地址,格式为
jdbc:hive2://{连接地址}:{端口}/{数据库名称};principal=hive/_HOST@xx.com
。
认证方式
支持无认证、LDAP和Kerberos认证方式。
无认证:无认证方式需填写Hive服务的用户名。
LDAP:LDAP认证方式需填写Hive服务的用户名和密码。
Kerberos:如果Hadoop集群有Kerberos认证,则需要开启Hive Kerberos并上传Keytab File认证文件与配置Principal。
Keytab File:上传keytab文件,您可以在Hive Server上获取keytab文件。
Principal:填写Hive Keytab File文件对应的Kerberos认证用户名。
用户名
填写Hive服务的用户名。
说明认证方式选择为无认证或LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。
密码
填写Hive服务的用户的密码。
说明仅当认证方式选择为LADP时,支持配置此项。
执行引擎
默认:Default:绑定该计算源的项目下的任务(包括逻辑表任务)默认使用该执行引擎。
自定义:选择其他计算引擎类型。
Hive元数据配置
元数据获取方式:支持元数据库、HMS、DLF三种源数据获取方式。获取方式不同,所需配置信息不同。
重要仅当计算引擎为E-MapReduce5.x时,支持选择DLF获取方式。
若使用DLF方式获取元数据,请先在配置文件中上传hive-site.xml配置文件。
元数据获取方式
参数
描述
元数据库
数据库类型
根据集群中使用的元数据库类型,选择数据库。Dataphin支持选择MySQL。
支持MySQL的版本包括MySQL 5.1.43、MySQL 5.6/5.7和MySQL 8版本。
JDBC URL
填写目标数据库的JDBC连接地址。例如:
MySQL:格式为
jdbc:mysql://{连接地址}[,failoverhost...]{端口}/{数据库名称} [?propertyName1][=propertyValue1][&propertyName2][=propertyValue2]...
。用户名、密码
填写登录元数据库的用户名和密码。
HMS
认证方式
HMS获取方式支持无认证、LDAP、Kerberos三种认证方式。Kerberos认证方式需上传Keytab File文件及配置Principal。
DLF
Endpoint
填写集群在DLF数据中心所在地域的Endpoint。如何获取,请参见DLF Region和Endpoint对照表。
AccessKey ID、AccessKey Secret
填写集群所在账号的AccessKey ID和AccessKey Secret。
您可在用户信息管理页面,获取账号的AccessKey ID和AccessKey Secret。
Spark Jar服务配置
参数
描述
Spark Jar任务
如果Hadoop集群有部署Spark,则支持开启Spark SQL任务。
执行用户名、密码
填写登录计算执行机器用户名和密码。
说明需确认用户已开通提交MapReduce任务的权限。
认证方式
支持无认证或Kerberos认证方式。
如果Hadoop集群有Kerberos认证,则需要开启Spark Kerberos并上传Keytab File认证文件与配置Principal。
Keytab File:上传keytab文件,您可以在Spark Server上获取keytab文件。
Principal:填写Spark Keytab File文件对应的Kerberos认证用户名。
Spark SQL服务配置
参数
描述
Spark SQL任务
如果Hadoop集群有部署Spark,则支持开启Spark SQL任务。
Spark版本
目前仅支持3.x。
服务类型
选择Spark JDBC访问的目标服务器类型。
JDBC URL
输入JDBC连接方式,例如:
jdbc:hive2://host1:port1/
或jdbc:kyuubi://host1:port1/
,无需填写database name。认证方式
支持无认证、LDAP和Kerberos认证方式。
无认证:无认证方式需填写Spark服务的用户名。
LDAP:LDAP认证方式需填写Spark服务的用户名和密码。
Kerberos:如果Hadoop集群有Kerberos认证,则需要开启Spark Kerberos并上传Keytab File认证文件与配置Principal。
Keytab File:上传keytab文件,您可以在Spark Server上获取keytab文件。
Principal:填写Spark Keytab File文件对应的Kerberos认证用户名。
说明无认证和LDAP方式所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。
用户名
填写Spark服务的用户名。
说明认证方式选择为无认证或LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。
密码
填写Spark服务用户的密码。
说明仅当认证方式选择为LADP时,支持配置此项。
SQL任务队列设置
不同服务类型使用不同的任务SQL任务队列。详情如下:
Spark Thrift Server:不支持设置任务队列。
Kyuubi:使用HDFS连接信息的优先级队列设置,仅当Kyuubi使用Yarn作为资源调度时生效,生产任务使用Connection共享级别。
Livy:使用HDFS连接信息的优先级队列设置,仅当Livy使用Yarn作为资源调度时生效,即席查询及生产任务均使用新的Connection执行。
MapReduce(MRS):使用HDFS连接信息的优先级队列设置。
Impala任务配置
参数
描述
Impala任务
如果Hadoop集群有部署Impala,则支持开启Impala任务。
JDBC URL
输入Impala的JDBC连接方式,例如:
jdbc:impala://host:port/
,无需填写schema。认证方式
支持无认证、LDAP、Kerberos认证方式。
无认证:无认证方式需填写Impala用户名。
LDAP:LDAP认证方式需填写Impala的用户名和密码。
Kerberos:Kerberos认证方式需上传Keytab File认证文件与配置Principal。
用户名
填写Impala用户名。
说明认证方式选择为无认证或LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。
密码
填写Impala用户的密码。
说明仅当认证方式选择为LADP时,支持配置此项。
开发任务请求池
输入用于开发任务的Impala请求池(request pool)名称。
周期任务请求池
输入用于周期任务的Impala请求池(request pool)名称。
单击测试连接,系统将自动开始测试与各服务间的连接。
测试连接通过后即可进行保存,若测试连接未通过,系统将弹出测试连接未通过对话框,可在对话框中查看未通过测试的服务以及其错误详情。
测试连接通过后,单击保存,完成Hadoop集群的创建。
管理Hadoop集群
在Dataphin首页的顶部菜单栏中,选择规划 > 计算源。
在计算源页面,单击管理Hadoop集群。
在管理Hadoop集群对话框中,查看Hadoop集群列表,列表中展示集群名称、集群管理员、关联计算源、创建信息和修改信息等信息。
关联计算源:展示关联计算源的总数,单击图标查看关联计算源的列表,单击计算原名称将跳转至计算源页面。
创建信息:记录创建用户和创建时间。
修改信息:记录最近一次编辑当前集群的用户名和修改时间。
说明计算任务只能在一个集群中运行,不同Hadoop集群之间的数据无法进行联接操作。
(可选)可在搜索框中输入集群名称,进行模糊搜索。
在Hadoop集群列表操作列中,对目标集群进行相关管理操作。支持的操作如下。
操作项
说明
查看
单击目标集群操作列的图标,查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户,可下载集群配置文件。
编辑
单击目标集群操作列的图标,打开编辑Hadoop集群页面。您可在编辑Hadoop集群页面中修改已有的配置,其中Spark Jar任务、Spark SQL任务、Impala任务的服务配置若为开启状态,且集群所关联的计算源下已经开启了相应服务,则不可关闭相关服务。
编辑完成后,若仅修改了集群基本信息和集群安全管控信息,则无需测试连接,直接保存即可;若有其他修改,则仍需进行测试连接,测试连接成功后单击保存,在弹出的对话框中填写变更说明并单击确定。
克隆
单击目标集群操作列的图标,系统将自动克隆当前集群的所有数据并打开新建Hadoop集群页面,您可在已有配置基础上进行修改。
历史版本
单击目标集群操作列的图标,选择历史版本,对话框中展示当前集群各版本信息,包含版本名称、修改人、变更说明等信息。您可在历史版本进行查看、对比和回滚操作。
查看:单击目标版本操作列中的图标,跳转至查看Hadoop集群页面,查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户,可下载集群配置文件。
对比:单击目标版本操作列中的图标,跳转至版本对比页面。可在对比页面中筛选的下拉列表中选择不同版本,默认将当前版本的Hadoop集群和目标版本进行对比。
回滚:单击目标版本操作列中的图标,在弹出的对话框中单击确定。
单击确定后,系统将对该版本的集群信息自动进行测试连接,若测试通过则正常进行回滚,若回滚失败,系统将弹出回滚失败的提示信息,您可在提示信息中查看具体失败原因。若测试连接失败则结束本次回滚,您可在弹出的对话框中查看测试连接失败的服务。
删除
说明仅在当前Hadoop集群下没有关联的计算源时,支持删除当前集群。
集群删除后无法恢复。
单击目标集群操作列的图标,选择删除,在弹出的对话框中,单击确定。