使用限制
仅当计算引擎为CDH5.x、CDH6.x、Cloudera Data Platform 7.x、E-MapReduce3.x、E-MapReduce5.x、亚信DP5.3或华为FusionInsight 8.x时,支持管理Hadoop集群。
权限说明
- 超级管理员、系统管理员和拥有Hadoop集群-管理权限的自定义全局角色,均可创建和管理Hadoop集群。同时,这些用户可设置在创建Hadoop计算源时可引用该集群的用户,以及为该集群指定集群管理员。 
- 支持集群管理员对自己负责的集群进行管理。 
- 拥有计算源管理-新建全局角色的用户,可以在创建Hadoop计算源时,选择引用自己有使用权限的Hadoop集群。 
创建Hadoop集群
- 在Dataphin首页的顶部菜单栏中,选择规划 > 计算源。 
- 在计算源页面,单击管理Hadoop集群。 
- 在管理Hadoop集群对话框中,单击+新建Hadoop集群。 
- 在新建Hadoop集群页面,配置以下参数。 - 基本信息 - 参数 - 描述 - 集群名称 - 输入当前集群的名称,仅支持中文、英文、数字、下划线(_)和短划线(-),长度不超过128个字符。 - 集群管理员 - 选择一个或多个当前租户下的成员,成为当前集群的集群管理员。集群管理员可管理当前集群,支持编辑、查看历史版本和删除操作。 - 描述(非必选) - 输入当前集群的简单描述,长度不超过128个字符。 
- 集群安全管控 - 可使用成员:新建计算源时哪些用户可以引用当前集群的配置信息,可选择拥有“新建计算源”权限的角色或指定用户。 - 拥有“新建计算源”权限的角色:默认选中。 
- 指定用户:支持选择一个或多个个人账号和用户组。 
 
- 集群配置 - 参数 - 描述 - 集群存储 - 选择HDFS或OSS-HDFS。 - 当选择为HDFS时,支持在NameNode配置项中新增NameNode。 
- 当选择为OSS-HDFS时,还需配置集群存储跟目录、AccessKey ID和AccessKey Secret。 
 说明- 仅当计算引擎为E-MapReduce5.x时,支持配置此项。其他计算引擎均默认为HDFS。 - NameNode - 单击+新增,在新增NameNode对话框中配置相关参数,支持新增多个NameNode。 - NameNode为HDFS集群中NameNode节点的HostName或者IP和端口。配置样例: - NameNode:193.168.xx.xx 
- Web UI Port:50070 
- IPC Port:8020 
 - Web UI Port和IPC Port两个端口中,至少选中一个。配置完成后NameNode为 - host=192.168.xx.xx,webUiPort=50070,ipcPort=8020。说明- 当集群存储为HDFS时,支持配置此项。 - 集群存储根目录 - 可查看EMR集群基础信息获取,格式为 - oss://<Bucket>.<Endpoint>/。说明- 仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,支持配置此项。 - AccessKey ID、AccessKey Secret - 输入OSS的访问AccessKey ID和AccessKey Secret。 说明- 此处填写的配置优先级高于core-site.xml中配置的AccessKey。 
- 仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,支持配置此项。 
 - core-site.xml - 上传当前计算引擎的core-site.xml、hdfs-site.xml、hive-site.xml、hivemetastore-site.xml、yarn-site.xml和其他配置文件。 说明- 仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,无需上传hdfs-site.xml文件。 
- 当Hive元数据获取方式选择为HMS时,必须上传hive-site.xml文件。 
- 当计算引擎为E-MapReduce5.x或华为FusionInsight 8.x,且Hive元数据获取方式选择为HMS时,必须上传hivemetastore-site.xml文件。 
 - hdfs-site.xml - hive-site.xml(非必选) - hivemetastore-site.xml(非必选) - yarn-site.xml(非必选) - 其他配置文件(非必选) - 任务执行机器 - 配置MapReduce或Spark Jar的执行机器的连接地址。格式为 - hostname:port或- ip:port,port默认为22且非必填。- 执行用户名、密码 - MR任务执行、HDFS读存等登录任务执行机器的用户名和密码,需确保有任务提交权限。 - 认证方式 - 支持无认证和Kerberos认证方式。 - Kerberos是一种基于对称密钥技术的身份认证协议,可以为其他服务提供身份认证功能,且支持SSO(即客户端身份认证后,可以访问多个服务,例如HBase和HDFS)。 - 当认证方式选择Kerberos时,还需选择Kerberos配置方式。 - Krb5认证文件:上传Krb5文件进行Kerberos认证。 
- KDC Server地址:KDC服务器地址,辅助完成Kerberos认证。支持配置多个KDC Server服务地址,使用英文分号(;)分隔。 
 说明- 当计算引擎类型为E-MapReduce 5.x时,仅支持krb5文件配置配置方式。 
- HDFS信息配置 - 参数 - 描述 - 认证方式 - 支持无认证和Kerberos。 - 如果Hadoop集群有Kerberos认证,则需要开启HDFS Kerberos并上传Keytab File认证文件与配置Principal。 - Keytab File:上传keytab文件,您可以在HDFS Server上获取keytab文件。 
- Principal:填写HDFS Keytab File文件对应的Kerberos认证用户名。 
 说明- 仅当计算引擎为E-MapReduce 5.x,且集群存储选择为OSS-HDFS时,无需配置此项。 - HDFS User(非必选) - 指定文件上传的用户名,如果不填则默认为执行用户名。 说明- 仅当认证方式选择为无认证时,支持配置此项。 
- Hive计算引擎配置 - 参数 - 描述 - JDBC URL - 支持配置以下三种连接地址: - Hive Server的连接地址,格式为 - jdbc:hive://{连接地址}:{端口}/{数据库名称}。
- ZooKeeper的连接地址。例如 - jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2。
- 开启Kerberos的连接地址,格式为 - jdbc:hive2://{连接地址}:{端口}/{数据库名称};principal=hive/_HOST@xx.com。
 - 认证方式 - 支持无认证、LDAP和Kerberos认证方式。 - 无认证:无认证方式需填写Hive服务的用户名。 
- LDAP:LDAP认证方式需填写Hive服务的用户名和密码。 
- Kerberos:如果Hadoop集群有Kerberos认证,则需要开启Hive Kerberos并上传Keytab File认证文件与配置Principal。 - Keytab File:上传keytab文件,您可以在Hive Server上获取keytab文件。 
- Principal:填写Hive Keytab File文件对应的Kerberos认证用户名。 
 
 - 用户名 - 填写Hive服务的用户名。 说明- 认证方式选择为无认证或LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。 - 密码 - 填写Hive服务的用户的密码。 说明- 仅当认证方式选择为LADP时,支持配置此项。 - 执行引擎 - 默认:Default:绑定该计算源的项目下的任务(包括逻辑表任务)默认使用该执行引擎。 - 自定义:选择其他计算引擎类型。 
- Hive元数据配置 - 元数据获取方式:支持元数据库、HMS、DLF三种源数据获取方式。获取方式不同,所需配置信息不同。 重要- 仅当计算引擎为E-MapReduce5.x时,支持选择DLF获取方式。 
- 若使用DLF方式获取元数据,请先在配置文件中上传hive-site.xml配置文件。 
 - 元数据获取方式 - 参数 - 描述 - 元数据库 - 数据库类型 - 根据集群中使用的元数据库类型,选择数据库。Dataphin支持选择MySQL。 - 支持MySQL的版本包括MySQL 5.1.43、MySQL 5.6/5.7和MySQL 8版本。 - JDBC URL - 填写目标数据库的JDBC连接地址。例如: - MySQL:格式为 - jdbc:mysql://{连接地址}[,failoverhost...]{端口}/{数据库名称} [?propertyName1][=propertyValue1][&propertyName2][=propertyValue2]...。- 用户名、密码 - 填写登录元数据库的用户名和密码。 - HMS - 认证方式 - HMS获取方式支持无认证、LDAP、Kerberos三种认证方式。Kerberos认证方式需上传Keytab File文件及配置Principal。 - DLF - Endpoint - 填写集群在DLF数据中心所在地域的Endpoint。如何获取,请参见DLF Region和Endpoint对照表。 - AccessKey ID、AccessKey Secret - 填写集群所在账号的AccessKey ID和AccessKey Secret。 - 您可在用户信息管理页面,获取账号的AccessKey ID和AccessKey Secret。 
- Spark Jar服务配置 重要- 由于性能原因,修改Spark执行机器或本地客户端配置,不会做连通性和有效性测试。请修改的第一时间,到研发模块运行测试程序检测Spark服务是否可用。 - 参数 - 描述 - Spark执行机器 - 如果Hadoop集群有部署Spark,则支持开启Spark SQL任务。 说明- 使用集群配置中的任务执行机器上的Spark客户端时,需提前在执行机器部署并完成相关设置(例如设置环境变量、创建执行用户、对执行用户授权等)。但仅支持一台执行机器,无法实现高可用和负载均衡。Spark Job提交后,Dataphin侧无法查看日志和终止。 - 执行用户名、密码 - 填写登录计算执行机器用户名和密码。 说明- 需确认用户已开通Spark-submit权限。 - Spark本地客户端 - 支持开启或关闭Spark本地客户端。开启后,若存在引用Spark本地客户端的任务,则不支持关闭。使用Spark本地客户端运行Spark程序,须上传yarn-site.xml配置文件,且确保Dataphin与yarn之间的端口连接正常。 - 单击+新增客户端,在新增客户端对话框中输入客户端名称并上传客户端文件。 - 客户端名称:仅支持字母、数字、下划线(_)、短划线(-)和半角句号(.),长度不超过32个字符。 - 同一个Hadoop集群内,客户端名称唯一(区分大小写)。 
- 客户端文件:上传客户端文件,文件格式仅支持.tgz和.zip。 说明- 可前往https://spark.apache.org/downloads.html下载相应版本的Spark客户端;自有客户端须与社区版目录结构一致,附带Hadoop客户端,并上传完整的压缩包(格式为.tgz或.zip)。Dataphin使用上传的客户端通过调度集群提交Job,可以实现Job的全生命周期管理。 
 - 客户端上传完成后,您可在客户端列表中,单击  图标编辑对应客户端,若上传新的客户端文件,则新的客户端文件将覆盖已有文件。单击 图标编辑对应客户端,若上传新的客户端文件,则新的客户端文件将覆盖已有文件。单击 图标,可删除对应客户端。说明 图标,可删除对应客户端。说明- 若已上传的客户端被任务(包括草稿状态任务)引用,则不支持编辑客户端名称和删除客户端操作。 - 认证方式 - 支持无认证或Kerberos认证方式。 - 如果Hadoop集群有Kerberos认证,则需要开启Spark Kerberos并上传Keytab File认证文件与配置Principal。 - Keytab File:上传keytab文件,您可以在Spark Server上获取keytab文件。 
- Principal:填写Spark Keytab File文件对应的Kerberos认证用户名。 
 
- Spark SQL服务配置 - 参数 - 描述 - Spark SQL任务 - 如果Hadoop集群有部署Spark,则支持开启Spark SQL任务。 - Spark版本 - 目前仅支持3.x。 - 服务类型 - 选择Spark JDBC访问的目标服务器类型。 - JDBC URL - 输入JDBC连接方式,例如: - jdbc:hive2://host1:port1/或- jdbc:kyuubi://host1:port1/,无需填写database name。- 认证方式 - 支持无认证、LDAP和Kerberos认证方式。 - 无认证:无认证方式需填写Spark服务的用户名。 
- LDAP:LDAP认证方式需填写Spark服务的用户名和密码。 
- Kerberos:如果Hadoop集群有Kerberos认证,则需要开启Spark Kerberos并上传Keytab File认证文件与配置Principal。 - Keytab File:上传keytab文件,您可以在Spark Server上获取keytab文件。 
- Principal:填写Spark Keytab File文件对应的Kerberos认证用户名。 
 
 说明- 无认证和LDAP方式所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。 - 用户名 - 填写Spark服务的用户名。 说明- 认证方式选择为无认证或LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。 - 密码 - 填写Spark服务用户的密码。 说明- 仅当认证方式选择为LADP时,支持配置此项。 - SQL任务队列设置 - 不同服务类型使用不同的任务SQL任务队列。详情如下: - Spark Thrift Server:不支持设置任务队列。 
- Kyuubi:使用HDFS连接信息的优先级队列设置,仅当Kyuubi使用Yarn作为资源调度时生效,生产任务使用Connection共享级别。 
- Livy:使用HDFS连接信息的优先级队列设置,仅当Livy使用Yarn作为资源调度时生效,即席查询及生产任务均使用新的Connection执行。 
- MapReduce(MRS):使用HDFS连接信息的优先级队列设置。 
 
- Impala任务配置 - 参数 - 描述 - Impala任务 - 如果Hadoop集群有部署Impala,则支持开启Impala任务。 - JDBC URL - 输入Impala的JDBC连接方式,例如: - jdbc:impala://host:port/,无需填写schema。- 认证方式 - 支持无认证、LDAP、Kerberos认证方式。 - 无认证:无认证方式需填写Impala用户名。 
- LDAP:LDAP认证方式需填写Impala的用户名和密码。 
- Kerberos:Kerberos认证方式需上传Keytab File认证文件与配置Principal。 
 - 用户名 - 填写Impala用户名。 说明- 认证方式选择为无认证或LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。 - 密码 - 填写Impala用户的密码。 说明- 仅当认证方式选择为LADP时,支持配置此项。 - 开发任务请求池 - 输入用于开发任务的Impala请求池(request pool)名称。 - 周期任务请求池 - 输入用于周期任务的Impala请求池(request pool)名称。 
 
- 单击测试连接,系统将自动开始测试与各服务间的连接。 - 测试连接通过后即可进行保存,若测试连接未通过,系统将弹出测试连接未通过对话框,可在对话框中查看未通过测试的服务以及其错误详情。 
- 测试连接通过后,单击保存,完成Hadoop集群的创建。 
管理Hadoop集群
- 在Dataphin首页的顶部菜单栏中,选择规划 > 计算源。 
- 在计算源页面,单击管理Hadoop集群。 
- 在管理Hadoop集群对话框中,查看Hadoop集群列表,列表中展示集群名称、集群管理员、关联计算源、创建信息和修改信息等信息。 - 关联计算源:展示关联计算源的总数,单击  图标查看关联计算源的列表,单击计算原名称将跳转至计算源页面。 图标查看关联计算源的列表,单击计算原名称将跳转至计算源页面。
- 创建信息:记录创建用户和创建时间。 
- 修改信息:记录最近一次编辑当前集群的用户名和修改时间。 
 说明- 计算任务只能在一个集群中运行,不同Hadoop集群之间的数据无法进行联接操作。 
- (可选)可在搜索框中输入集群名称,进行模糊搜索。 
- 在Hadoop集群列表操作列中,对目标集群进行相关管理操作。支持的操作如下。 - 操作项 - 说明 - 查看 - 单击目标集群操作列的  图标,查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户,可下载集群配置文件。 图标,查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户,可下载集群配置文件。- 编辑 - 单击目标集群操作列的  图标,打开编辑Hadoop集群页面。您可在编辑Hadoop集群页面中修改已有的配置,其中Spark Jar任务、Spark SQL任务、Impala任务的服务配置若为开启状态,且集群所关联的计算源下已经开启了相应服务,则不可关闭相关服务。 图标,打开编辑Hadoop集群页面。您可在编辑Hadoop集群页面中修改已有的配置,其中Spark Jar任务、Spark SQL任务、Impala任务的服务配置若为开启状态,且集群所关联的计算源下已经开启了相应服务,则不可关闭相关服务。- 编辑完成后,若仅修改了集群基本信息和集群安全管控信息,则无需测试连接,直接保存即可;若有其他修改,则仍需进行测试连接,测试连接成功后单击保存,在弹出的对话框中填写变更说明并单击确定。 - 克隆 - 单击目标集群操作列的  图标,系统将自动克隆当前集群的所有数据并打开新建Hadoop集群页面,您可在已有配置基础上进行修改。 图标,系统将自动克隆当前集群的所有数据并打开新建Hadoop集群页面,您可在已有配置基础上进行修改。- 历史版本 - 单击目标集群操作列的  图标,选择历史版本,对话框中展示当前集群各版本信息,包含版本名称、修改人、变更说明等信息。您可在历史版本进行查看、对比和回滚操作。 图标,选择历史版本,对话框中展示当前集群各版本信息,包含版本名称、修改人、变更说明等信息。您可在历史版本进行查看、对比和回滚操作。- 查看:单击目标版本操作列中的  图标,跳转至查看Hadoop集群页面,查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户,可下载集群配置文件。 图标,跳转至查看Hadoop集群页面,查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户,可下载集群配置文件。
- 对比:单击目标版本操作列中的  图标,跳转至版本对比页面。可在对比页面中筛选的下拉列表中选择不同版本,默认将当前版本的Hadoop集群和目标版本进行对比。 图标,跳转至版本对比页面。可在对比页面中筛选的下拉列表中选择不同版本,默认将当前版本的Hadoop集群和目标版本进行对比。
- 回滚:单击目标版本操作列中的  图标,在弹出的对话框中单击确定。 图标,在弹出的对话框中单击确定。- 单击确定后,系统将对该版本的集群信息自动进行测试连接,若测试通过则正常进行回滚,若回滚失败,系统将弹出回滚失败的提示信息,您可在提示信息中查看具体失败原因。若测试连接失败则结束本次回滚,您可在弹出的对话框中查看测试连接失败的服务。 
 - 删除 说明- 仅在当前Hadoop集群下没有关联的计算源时,支持删除当前集群。 
- 集群删除后无法恢复。 
 - 单击目标集群操作列的  图标,选择删除,在弹出的对话框中,单击确定。 图标,选择删除,在弹出的对话框中,单击确定。