创建及管理Hadoop集群

使用限制

仅当计算引擎为CDH5.xCDH6.xCloudera Data Platform 7.xE-MapReduce3.xE-MapReduce5.x亚信DP5.3华为FusionInsight 8.x时,支持管理Hadoop集群。

权限说明

  • 超级管理员系统管理员和拥有Hadoop集群-管理权限的自定义全局角色,均可创建和管理Hadoop集群。同时,这些用户可设置在创建Hadoop计算源时可引用该集群的用户,以及为该集群指定集群管理员。

  • 支持集群管理员对自己负责的集群进行管理。

  • 拥有计算源管理-新建全局角色的用户,可以在创建Hadoop计算源时,选择引用自己有使用权限的Hadoop集群。

创建Hadoop集群

  1. 在Dataphin首页的顶部菜单栏中,选择规划 > 计算源

  2. 计算源页面,单击管理Hadoop集群

  3. 管理Hadoop集群对话框中,单击+新建Hadoop集群

  4. 新建Hadoop集群页面,配置以下参数。

    • 基本信息

      参数

      描述

      集群名称

      输入当前集群的名称,仅支持中文、英文、数字、下划线(_)和短划线(-),长度不超过128个字符。

      集群管理员

      选择一个或多个当前租户下的成员,成为当前集群的集群管理员。集群管理员可管理当前集群,支持编辑、查看历史版本和删除操作。

      描述(非必选)

      输入当前集群的简单描述,长度不超过128个字符。

    • 集群安全管控

      可使用成员:新建计算源时哪些用户可以引用当前集群的配置信息,可选择拥有“新建计算源”权限的角色指定用户

      • 拥有“新建计算源”权限的角色:默认选中。

      • 指定用户:支持选择一个或多个个人账号和用户组。

    • 集群配置

      参数

      描述

      集群存储

      选择HDFSOSS-HDFS

      • 当选择为HDFS时,支持在NameNode配置项中新增NameNode。

      • 当选择为OSS-HDFS时,还需配置集群存储跟目录、AccessKey IDAccessKey Secret

      说明

      仅当计算引擎为E-MapReduce5.x时,支持配置此项。其他计算引擎均默认为HDFS

      NameNode

      单击+新增,在新增NameNode对话框中配置相关参数,支持新增多个NameNode。

      NameNode为HDFS集群中NameNode节点的HostName或者IP和端口。配置样例:

      • NameNode:193.168.xx.xx

      • Web UI Port:50070

      • IPC Port:8020

      Web UI Port和IPC Port两个端口中,至少选中一个。配置完成后NameNode为host=192.168.xx.xx,webUiPort=50070,ipcPort=8020

      说明

      当集群存储为HDFS时,支持配置此项。

      集群存储根目录

      可查看EMR集群基础信息获取,格式为oss://<Bucket>.<Endpoint>/

      说明

      仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,支持配置此项

      AccessKey IDAccessKey Secret

      输入OSS的访问AccessKey ID和AccessKey Secret。

      说明
      • 此处填写的配置优先级高于core-site.xml中配置的AccessKey。

      • 仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,支持配置此项

      core-site.xml

      上传当前计算引擎的core-site.xml、hdfs-site.xml、hive-site.xml、hivemetastore-site.xml、yarn-site.xml和其他配置文件。

      说明
      • 仅当计算引擎为E-MapReduce5.x,且集群存储选择为OSS-HDFS时,无需上传hdfs-site.xml文件。

      • Hive元数据获取方式选择为HMS时,必须上传hive-site.xml文件。

      • 计算引擎为E-MapReduce5.x华为FusionInsight 8.x,且Hive元数据获取方式选择为HMS时,必须上传hivemetastore-site.xml文件。

      hdfs-site.xml

      hive-site.xml(非必选)

      hivemetastore-site.xml(非必选)

      yarn-site.xml(非必选)

      其他配置文件(非必选)

      任务执行机器

      配置MapReduce或Spark Jar的执行机器的连接地址。格式为hostname:portip:port,port默认为22且非必填。

      执行用户名密码

      MR任务执行、HDFS读存等登录任务执行机器的用户名和密码,需确保有任务提交权限

      认证方式

      支持无认证Kerberos认证方式。

      Kerberos是一种基于对称密钥技术的身份认证协议,可以为其他服务提供身份认证功能,且支持SSO(即客户端身份认证后,可以访问多个服务,例如HBase和HDFS)。

      当认证方式选择Kerberos时,还需选择Kerberos配置方式

      • Krb5认证文件:上传Krb5文件进行Kerberos认证。

      • KDC Server地址:KDC服务器地址,辅助完成Kerberos认证。支持配置多个KDC Server服务地址,使用英文分号(;)分隔。

      说明

      当计算引擎类型为E-MapReduce 5.x时,仅支持krb5文件配置配置方式。

    • HDFS信息配置

      参数

      描述

      认证方式

      支持无认证Kerberos

      如果Hadoop集群有Kerberos认证,则需要开启HDFS Kerberos并上传Keytab File认证文件与配置Principal。

      • Keytab File:上传keytab文件,您可以在HDFS Server上获取keytab文件。

      • Principal:填写HDFS Keytab File文件对应的Kerberos认证用户名。

      说明

      仅当计算引擎为E-MapReduce 5.x,且集群存储选择为OSS-HDFS时,无需配置此项。

      HDFS User(非必选)

      指定文件上传的用户名,如果不填则默认为执行用户名。

      说明

      仅当认证方式选择为无认证时,支持配置此项。

    • Hive计算引擎配置

      参数

      描述

      JDBC URL

      支持配置以下三种连接地址:

      • Hive Server的连接地址,格式为jdbc:hive://{连接地址}:{端口}/{数据库名称}

      • ZooKeeper的连接地址。例如jdbc:hive2://zk01:2181,zk02:2181,zk03:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2

      • 开启Kerberos的连接地址,格式为jdbc:hive2://{连接地址}:{端口}/{数据库名称};principal=hive/_HOST@xx.com

      认证方式

      支持无认证LDAPKerberos认证方式。

      • 无认证:无认证方式需填写Hive服务的用户名。

      • LDAP:LDAP认证方式需填写Hive服务的用户名和密码。

      • Kerberos:如果Hadoop集群有Kerberos认证,则需要开启Hive Kerberos并上传Keytab File认证文件与配置Principal。

        • Keytab File:上传keytab文件,您可以在Hive Server上获取keytab文件。

        • Principal:填写Hive Keytab File文件对应的Kerberos认证用户名。

      用户名

      填写Hive服务的用户名。

      说明

      认证方式选择为无认证LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。

      密码

      填写Hive服务的用户的密码。

      说明

      仅当认证方式选择为LADP时,支持配置此项。

      执行引擎

      默认:Default:绑定该计算源的项目下的任务(包括逻辑表任务)默认使用该执行引擎。

      自定义:选择其他计算引擎类型。

    • Hive元数据配置

      元数据获取方式:支持元数据库HMSDLF三种源数据获取方式。获取方式不同,所需配置信息不同。

      重要
      • 仅当计算引擎为E-MapReduce5.x时,支持选择DLF获取方式。

      • 若使用DLF方式获取元数据,请先在配置文件中上传hive-site.xml配置文件。

      元数据获取方式

      参数

      描述

      元数据库

      数据库类型

      根据集群中使用的元数据库类型,选择数据库。Dataphin支持选择MySQL

      支持MySQL的版本包括MySQL 5.1.43MySQL 5.6/5.7MySQL 8版本。

      JDBC URL

      填写目标数据库的JDBC连接地址。例如:

      MySQL:格式为jdbc:mysql://{连接地址}[,failoverhost...]{端口}/{数据库名称} [?propertyName1][=propertyValue1][&propertyName2][=propertyValue2]...

      用户名密码

      填写登录元数据库的用户名和密码。

      HMS

      认证方式

      HMS获取方式支持无认证、LDAP、Kerberos三种认证方式。Kerberos认证方式需上传Keytab File文件及配置Principal。

      DLF

      Endpoint

      填写集群在DLF数据中心所在地域的Endpoint。如何获取,请参见DLF Region和Endpoint对照表

      AccessKey IDAccessKey Secret

      填写集群所在账号的AccessKey ID和AccessKey Secret。

      您可在用户信息管理页面,获取账号的AccessKey ID和AccessKey Secret。

    • Spark Jar服务配置

      参数

      描述

      Spark Jar任务

      如果Hadoop集群有部署Spark,则支持开启Spark SQL任务

      执行用户名密码

      填写登录计算执行机器用户名和密码。

      说明

      需确认用户已开通提交MapReduce任务的权限。

      认证方式

      支持无认证Kerberos认证方式。

      如果Hadoop集群有Kerberos认证,则需要开启Spark Kerberos并上传Keytab File认证文件与配置Principal。

      • Keytab File:上传keytab文件,您可以在Spark Server上获取keytab文件。

      • Principal:填写Spark Keytab File文件对应的Kerberos认证用户名。

    • Spark SQL服务配置

      参数

      描述

      Spark SQL任务

      如果Hadoop集群有部署Spark,则支持开启Spark SQL任务

      Spark版本

      目前仅支持3.x。

      服务类型

      选择Spark JDBC访问的目标服务器类型。

      JDBC URL

      输入JDBC连接方式,例如:jdbc:hive2://host1:port1/jdbc:kyuubi://host1:port1/无需填写database name

      认证方式

      支持无认证LDAPKerberos认证方式。

      • 无认证:无认证方式需填写Spark服务的用户名。

      • LDAP:LDAP认证方式需填写Spark服务的用户名和密码。

      • Kerberos:如果Hadoop集群有Kerberos认证,则需要开启Spark Kerberos并上传Keytab File认证文件与配置Principal。

        • Keytab File:上传keytab文件,您可以在Spark Server上获取keytab文件。

        • Principal:填写Spark Keytab File文件对应的Kerberos认证用户名。

      说明

      无认证和LDAP方式所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。

      用户名

      填写Spark服务的用户名。

      说明

      认证方式选择为无认证LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。

      密码

      填写Spark服务用户的密码。

      说明

      仅当认证方式选择为LADP时,支持配置此项。

      SQL任务队列设置

      不同服务类型使用不同的任务SQL任务队列。详情如下:

      • Spark Thrift Server:不支持设置任务队列。

      • Kyuubi:使用HDFS连接信息的优先级队列设置,仅当Kyuubi使用Yarn作为资源调度时生效,生产任务使用Connection共享级别。

      • Livy:使用HDFS连接信息的优先级队列设置,仅当Livy使用Yarn作为资源调度时生效,即席查询及生产任务均使用新的Connection执行。

      • MapReduce(MRS):使用HDFS连接信息的优先级队列设置。

    • Impala任务配置

      参数

      描述

      Impala任务

      如果Hadoop集群有部署Impala,则支持开启Impala任务。

      JDBC URL

      输入Impala的JDBC连接方式,例如:jdbc:impala://host:port/无需填写schema

      认证方式

      支持无认证LDAPKerberos认证方式。

      • 无认证:无认证方式需填写Impala用户名。

      • LDAP:LDAP认证方式需填写Impala的用户名和密码。

      • Kerberos:Kerberos认证方式需上传Keytab File认证文件与配置Principal。

      用户名

      填写Impala用户名。

      说明

      认证方式选择为无认证LDAP时,支持配置此项。所填写的用户须确保具备任务的执行权限,以保证任务的正常执行。

      密码

      填写Impala用户的密码。

      说明

      仅当认证方式选择为LADP时,支持配置此项。

      开发任务请求池

      输入用于开发任务的Impala请求池(request pool)名称。

      周期任务请求池

      输入用于周期任务的Impala请求池(request pool)名称。

  5. 单击测试连接,系统将自动开始测试与各服务间的连接。

    测试连接通过后即可进行保存,若测试连接未通过,系统将弹出测试连接未通过对话框,可在对话框中查看未通过测试的服务以及其错误详情。

  6. 测试连接通过后,单击保存,完成Hadoop集群的创建。

管理Hadoop集群

  1. 在Dataphin首页的顶部菜单栏中,选择规划 > 计算源

  2. 计算源页面,单击管理Hadoop集群

  3. 管理Hadoop集群对话框中,查看Hadoop集群列表,列表中展示集群名称、集群管理员、关联计算源、创建信息和修改信息等信息。

    • 关联计算源:展示关联计算源的总数,单击image图标查看关联计算源的列表,单击计算原名称将跳转至计算源页面。

    • 创建信息:记录创建用户和创建时间。

    • 修改信息:记录最近一次编辑当前集群的用户名和修改时间。

    说明

    计算任务只能在一个集群中运行,不同Hadoop集群之间的数据无法进行联接操作。

  4. (可选)可在搜索框中输入集群名称,进行模糊搜索。

  5. 在Hadoop集群列表操作列中,对目标集群进行相关管理操作。支持的操作如下。

    操作项

    说明

    查看

    单击目标集群操作列的image图标,查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户,可下载集群配置文件。

    编辑

    单击目标集群操作列的image图标,打开编辑Hadoop集群页面。您可在编辑Hadoop集群页面中修改已有的配置,其中Spark Jar任务、Spark SQL任务、Impala任务的服务配置若为开启状态,且集群所关联的计算源下已经开启了相应服务,则不可关闭相关服务。

    编辑完成后,若仅修改了集群基本信息集群安全管控信息,则无需测试连接,直接保存即可;若有其他修改,则仍需进行测试连接,测试连接成功后单击保存,在弹出的对话框中填写变更说明并单击确定

    克隆

    单击目标集群操作列的image图标,系统将自动克隆当前集群的所有数据并打开新建Hadoop集群页面,您可在已有配置基础上进行修改。

    历史版本

    单击目标集群操作列的image图标,选择历史版本,对话框中展示当前集群各版本信息,包含版本名称、修改人、变更说明等信息。您可在历史版本进行查看对比回滚操作。

    • 查看:单击目标版本操作列中的image图标,跳转至查看Hadoop集群页面,查看集群当前版本的详细信息。拥有Hadoop集群-管理权限的用户,可下载集群配置文件。

    • 对比:单击目标版本操作列中的image图标,跳转至版本对比页面。可在对比页面中筛选的下拉列表中选择不同版本,默认将当前版本的Hadoop集群和目标版本进行对比。

    • 回滚:单击目标版本操作列中的image图标,在弹出的对话框中单击确定

      单击确定后,系统将对该版本的集群信息自动进行测试连接,若测试通过则正常进行回滚,若回滚失败,系统将弹出回滚失败的提示信息,您可在提示信息中查看具体失败原因。若测试连接失败则结束本次回滚,您可在弹出的对话框中查看测试连接失败的服务。

    删除

    说明
    • 仅在当前Hadoop集群下没有关联的计算源时,支持删除当前集群。

    • 集群删除后无法恢复

    单击目标集群操作列的image图标,选择删除,在弹出的对话框中,单击确定