使用限制
仅当计算引擎为CDH5.x、CDH6.x、Cloudera Data Platform 7.x、E-MapReduce3.x、E-MapReduce5.x、亚信DP5.3或华为FusionInsight 8.x时,支持管理Hadoop集群。
权限说明
超级管理员、系统管理员和拥有Hadoop集群-管理权限的自定义全局角色,均可创建和管理Hadoop集群。同时,这些用户可设置在创建Hadoop计算源时可引用该集群的用户,以及为该集群指定集群管理员。
支持集群管理员对自己负责的集群进行管理。
拥有计算源管理-新建全局角色的用户,可以在创建Hadoop计算源时,选择引用自己有使用权限的Hadoop集群。
创建Hadoop集群
在Dataphin首页的顶部菜单栏中,选择规划 > 计算源。
在计算源页面,单击管理Hadoop集群。
在管理Hadoop集群对话框中,单击+新建Hadoop集群。
在新建Hadoop集群页面,配置以下参数。
基本信息
参数
描述
参数
描述
集群名称
输入当前集群的名称,仅支持中文、英文、数字、下划线(_)和短划线(-),长度不超过128个字符。
集群管理员
选择一个或多个当前租户下的成员,成为当前集群的集群管理员。集群管理员可管理当前集群,支持编辑、查看历史版本和删除操作。
描述(非必选)
输入当前集群的简单描述,长度不超过128个字符。
集群安全管控
可使用成员:新建计算源时哪些用户可以引用当前集群的配置信息,可选择拥有“新建计算源”权限的角色或指定用户。
拥有“新建计算源”权限的角色:默认选中。
指定用户:支持选择一个或多个个人账号和用户组。
集群配置
参数
描述
参数
描述
集群存储
选择HDFS或OSS-HDFS。
当选择为HDFS时,支持在NameNode配置项中新增NameNode。
当选择为OSS-HDFS时,还需配置集群存储跟目录、AccessKey ID和AccessKey Secret。
仅当计算引擎为E-MapReduce5.x时,支持配置此项。其他计算引擎均默认为HDFS。
NameNode
单击+新增,在新增NameNode对话框中配置相关参数,支持新增多个NameNode。
NameNode为HDFS集群中NameNode节点的HostName或者IP和端口。配置样例:
NameNode:193.168.xx.xx
Web UI Port:50070
IPC Port:8020
Web UI Port和IPC Port两个端口中,至少选中一个。配置完成后NameNode为
host=192.168.xx.xx,webUiPort=50070,ipcPort=8020
。当集群存储为HDFS时,支持配置此项。
集群存储根目录
可查看EMR集群基础信息获取,格式为
oss://<Bucket>.<Endpoint>/
。仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,支持配置此项。
AccessKey ID、AccessKey Secret
输入OSS的访问AccessKey ID和AccessKey Secret。
此处填写的配置优先级高于core-site.xml中配置的AccessKey。
仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,支持配置此项。
core-site.xml
上传当前计算引擎的core-site.xml、hdfs-site.xml、hive-site.xml、hivemetastore-site.xml、yarn-site.xml和其他配置文件。
仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,无需上传hdfs-site.xml文件。
当Hive元数据获取方式选择为HMS时,必须上传hive-site.xml文件。
当计算引擎为E-MapReduce5.x或华为FusionInsight 8.x,且Hive元数据获取方式选择为HMS时,必须上传hivemetastore-site.xml文件。
hdfs-site.xml
hive-site.xml(非必选)
hivemetastore-site.xml(非必选)
yarn-site.xml(非必选)
其他配置文件(非必选)
任务执行机器
配置MapReduce或Spark Jar的执行机器的连接地址。格式为
hostname:port
或ip:port
,port默认为22且非必填。执行用户名、密码
MR任务执行、HDFS读存等登录任务执行机器的用户名和密码,需确保有任务提交权限。
认证方式
支持无认证和Kerberos认证方式。
Kerberos是一种基于对称密钥技术的身份认证协议,可以为其他服务提供身份认证功能,且支持SSO(即客户端身份认证后,可以访问多个服务,例如HBase和HDFS)。
当认证方式选择Kerberos时,还需选择Kerberos配置方式。
Krb5认证文件:上传Krb5文件进行Kerberos认证。
KDC Server地址:KDC服务器地址,辅助完成Kerberos认证。支持配置多个KDC Server服务地址,使用英文分号(;)分隔。
当计算引擎类型为E-MapReduce 5.x时,仅支持krb5文件配置配置方式。
HDFS信息配置
参数
描述
参数
描述
认证方式
支持无认证和Kerberos。
如果Hadoop集群有Kerberos认证,则需要开启HDFS Kerberos并上传Keytab File认证文件与配置Principal。
Keytab File:上传keytab文件,您可以在HDFS Server上获取keytab文件。
Principal:填写HDFS Keytab File文件对应的Kerberos认证用户名。
仅当计算引擎为E-MapReduce 5.x,且集群存储选择为OSS-HDFS时,无需配置此项。
HDFS User(非必选)
指定文件上传的用户名,如果不填则默认为执行用户名。
仅当认证方式选择为无认证时,支持配置此项。
Hive计算引擎配置
参数
描述
参数
描述
JDBC URL
支持配置以下三种连接地址:
Hive Server的连接地址,格式为
jdbc:hive://{连接地址}:{端口}/{数据库名称}
。ZooKeeper的连接地址。例如
jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2
。开启Kerberos的连接地址,格式为
jdbc:hive2://{连接地址}:{端口}/{数据库名称};principal=hive/_HOST@xx.com
。
认证方式
支持无认证、LDAP和Kerberos认证方式。
无认证:无认证方式需填写Hive服务的用户名。
LDAP:LDAP认证方式需填写Hive服务的用户名和密码。
Kerberos:如果Hadoop集群有Kerberos认证,则需要开启Hive Kerberos并上传Keytab File认证文件与配置Principal。
Keytab File:上传keytab文件,您可以在Hive Server上获取keytab文件。
Principal:填写Hive Keytab File文件对应的Kerberos认证用户名。
用户名
填写Hive服务的用户名。
认证方式选择为无认证或LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。
密码
填写Hive服务的用户的密码。
仅当认证方式选择为LADP时,支持配置此项。
执行引擎
默认:Default:绑定该计算源的项目下的任务(包括逻辑表任务)默认使用该执行引擎。
自定义:选择其他计算引擎类型。
Hive元数据配置
元数据获取方式:支持元数据库、HMS、DLF三种源数据获取方式。获取方式不同,所需配置信息不同。
仅当计算引擎为E-MapReduce5.x时,支持选择DLF获取方式。
若使用DLF方式获取元数据,请先在配置文件中上传hive-site.xml配置文件。
元数据获取方式
参数
描述
元数据获取方式
参数
描述
元数据库
数据库类型
根据集群中使用的元数据库类型,选择数据库。Dataphin支持选择MySQL。
支持MySQL的版本包括MySQL 5.1.43、MySQL 5.6/5.7和MySQL 8版本。
JDBC URL
填写目标数据库的JDBC连接地址。例如:
MySQL:格式为
jdbc:mysql://{连接地址}[,failoverhost...]{端口}/{数据库名称} [?propertyName1][=propertyValue1][&propertyName2][=propertyValue2]...
。用户名、密码
填写登录元数据库的用户名和密码。
HMS
认证方式
HMS获取方式支持无认证、LDAP、Kerberos三种认证方式。Kerberos认证方式需上传Keytab File文件及配置Principal。
DLF
Endpoint
填写集群在DLF数据中心所在地域的Endpoint。如何获取,请参见DLF Region和Endpoint对照表。
AccessKey ID、AccessKey Secret
填写集群所在账号的AccessKey ID和AccessKey Secret。
您可在用户信息管理页面,获取账号的AccessKey ID和AccessKey Secret。
Spark Jar服务配置
由于性能原因,修改Spark执行机器或本地客户端配置,不会做连通性和有效性测试。请修改的第一时间,到研发模块运行测试程序检测Spark服务是否可用。
参数
描述
参数
描述
Spark执行机器
如果Hadoop集群有部署Spark,则支持开启Spark SQL任务。
使用集群配置中的任务执行机器上的Spark客户端时,需提前在执行机器部署并完成相关设置(例如设置环境变量、创建执行用户、对执行用户授权等)。但仅支持一台执行机器,无法实现高可用和负载均衡。Spark Job提交后,Dataphin侧无法查看日志和终止。
执行用户名、密码
填写登录计算执行机器用户名和密码。
需确认用户已开通Spark-submit权限。
Spark本地客户端
支持开启或关闭Spark本地客户端。开启后,若存在引用Spark本地客户端的任务,则不支持关闭。使用Spark本地客户端运行Spark程序,须上传yarn-site.xml配置文件,且确保Dataphin与yarn之间的端口连接正常。
单击+新增客户端,在新增客户端对话框中输入客户端名称并上传客户端文件。
客户端名称:仅支持字母、数字、下划线(_)、短划线(-)和半角句号(.),长度不超过32个字符。
同一个Hadoop集群内,客户端名称唯一(区分大小写)。
客户端文件:上传客户端文件,文件格式仅支持.tgz和.zip。
可前往https://spark.apache.org/downloads.html下载相应版本的Spark客户端;自有客户端须与社区版目录结构一致,附带Hadoop客户端,并上传完整的压缩包(格式为.tgz或.zip)。Dataphin使用上传的客户端通过调度集群提交Job,可以实现Job的全生命周期管理。
客户端上传完成后,您可在客户端列表中,单击
图标编辑对应客户端,若上传新的客户端文件,则新的客户端文件将覆盖已有文件。单击
图标,可删除对应客户端。
若已上传的客户端被任务(包括草稿状态任务)引用,则不支持编辑客户端名称和删除客户端操作。
认证方式
支持无认证或Kerberos认证方式。
如果Hadoop集群有Kerberos认证,则需要开启Spark Kerberos并上传Keytab File认证文件与配置Principal。
Keytab File:上传keytab文件,您可以在Spark Server上获取keytab文件。
Principal:填写Spark Keytab File文件对应的Kerberos认证用户名。
Spark SQL服务配置
参数
描述
参数
描述
Spark SQL任务
如果Hadoop集群有部署Spark,则支持开启Spark SQL任务。
Spark版本
目前仅支持3.x。
服务类型
选择Spark JDBC访问的目标服务器类型。
JDBC URL
输入JDBC连接方式,例如:
jdbc:hive2://host1:port1/
或jdbc:kyuubi://host1:port1/
,无需填写database name。认证方式
支持无认证、LDAP和Kerberos认证方式。
无认证:无认证方式需填写Spark服务的用户名。
LDAP:LDAP认证方式需填写Spark服务的用户名和密码。
Kerberos:如果Hadoop集群有Kerberos认证,则需要开启Spark Kerberos并上传Keytab File认证文件与配置Principal。
Keytab File:上传keytab文件,您可以在Spark Server上获取keytab文件。
Principal:填写Spark Keytab File文件对应的Kerberos认证用户名。
无认证和LDAP方式所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。
用户名
填写Spark服务的用户名。
认证方式选择为无认证或LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。
密码
填写Spark服务用户的密码。
仅当认证方式选择为LADP时,支持配置此项。
SQL任务队列设置
不同服务类型使用不同的任务SQL任务队列。详情如下:
Spark Thrift Server:不支持设置任务队列。
Kyuubi:使用HDFS连接信息的优先级队列设置,仅当Kyuubi使用Yarn作为资源调度时生效,生产任务使用Connection共享级别。
Livy:使用HDFS连接信息的优先级队列设置,仅当Livy使用Yarn作为资源调度时生效,即席查询及生产任务均使用新的Connection执行。
MapReduce(MRS):使用HDFS连接信息的优先级队列设置。
Impala任务配置
参数
描述
参数
描述
Impala任务
如果Hadoop集群有部署Impala,则支持开启Impala任务。
JDBC URL
输入Impala的JDBC连接方式,例如:
jdbc:impala://host:port/
,无需填写schema。认证方式
支持无认证、LDAP、Kerberos认证方式。
无认证:无认证方式需填写Impala用户名。
LDAP:LDAP认证方式需填写Impala的用户名和密码。
Kerberos:Kerberos认证方式需上传Keytab File认证文件与配置Principal。
用户名
填写Impala用户名。
认证方式选择为无认证或LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。
密码
填写Impala用户的密码。
仅当认证方式选择为LADP时,支持配置此项。
开发任务请求池
输入用于开发任务的Impala请求池(request pool)名称。
周期任务请求池
输入用于周期任务的Impala请求池(request pool)名称。
单击测试连接,系统将自动开始测试与各服务间的连接。
测试连接通过后即可进行保存,若测试连接未通过,系统将弹出测试连接未通过对话框,可在对话框中查看未通过测试的服务以及其错误详情。
测试连接通过后,单击保存,完成Hadoop集群的创建。
管理Hadoop集群
在Dataphin首页的顶部菜单栏中,选择规划 > 计算源。
在计算源页面,单击管理Hadoop集群。
在管理Hadoop集群对话框中,查看Hadoop集群列表,列表中展示集群名称、集群管理员、关联计算源、创建信息和修改信息等信息。
关联计算源:展示关联计算源的总数,单击
图标查看关联计算源的列表,单击计算原名称将跳转至计算源页面。
创建信息:记录创建用户和创建时间。
修改信息:记录最近一次编辑当前集群的用户名和修改时间。
计算任务只能在一个集群中运行,不同Hadoop集群之间的数据无法进行联接操作。
(可选)可在搜索框中输入集群名称,进行模糊搜索。
在Hadoop集群列表操作列中,对目标集群进行相关管理操作。支持的操作如下。
操作项
说明
操作项
说明
查看
单击目标集群操作列的
图标,查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户,可下载集群配置文件。
编辑
单击目标集群操作列的
图标,打开编辑Hadoop集群页面。您可在编辑Hadoop集群页面中修改已有的配置,其中Spark Jar任务、Spark SQL任务、Impala任务的服务配置若为开启状态,且集群所关联的计算源下已经开启了相应服务,则不可关闭相关服务。
编辑完成后,若仅修改了集群基本信息和集群安全管控信息,则无需测试连接,直接保存即可;若有其他修改,则仍需进行测试连接,测试连接成功后单击保存,在弹出的对话框中填写变更说明并单击确定。
克隆
单击目标集群操作列的
图标,系统将自动克隆当前集群的所有数据并打开新建Hadoop集群页面,您可在已有配置基础上进行修改。
历史版本
单击目标集群操作列的
图标,选择历史版本,对话框中展示当前集群各版本信息,包含版本名称、修改人、变更说明等信息。您可在历史版本进行查看、对比和回滚操作。
查看:单击目标版本操作列中的
图标,跳转至查看Hadoop集群页面,查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户,可下载集群配置文件。
对比:单击目标版本操作列中的
图标,跳转至版本对比页面。可在对比页面中筛选的下拉列表中选择不同版本,默认将当前版本的Hadoop集群和目标版本进行对比。
回滚:单击目标版本操作列中的
图标,在弹出的对话框中单击确定。
单击确定后,系统将对该版本的集群信息自动进行测试连接,若测试通过则正常进行回滚,若回滚失败,系统将弹出回滚失败的提示信息,您可在提示信息中查看具体失败原因。若测试连接失败则结束本次回滚,您可在弹出的对话框中查看测试连接失败的服务。
删除
仅在当前Hadoop集群下没有关联的计算源时,支持删除当前集群。
集群删除后无法恢复。
单击目标集群操作列的
图标,选择删除,在弹出的对话框中,单击确定。
- 本页导读 (0)
- 使用限制
- 权限说明
- 创建Hadoop集群
- 管理Hadoop集群