创建及管理Amazon EMR集群

权限说明

  • 超级管理员系统管理员和拥有Amazon EMR集群-管理权限的自定义全局角色,均可创建和管理Amazon EMR集群。同时,这些用户可设置在创建Amazon EMR计算源时可引用该集群的用户,以及为该集群指定集群管理员。

  • 支持集群管理员对自己负责的集群进行管理。

  • 拥有计算源管理-新建自定义全局角色的用户,可以在创建Amazon EMR计算源时,选择引用自己有使用权限的Amazon EMR集群。

创建Amazon EMR集群

  1. Dataphin首页的顶部菜单栏中,选择规划 > 计算源

  2. 计算源页面,单击管理Amazon EMR集群

  3. 管理Amazon EMR集群对话框中,单击+新建Amazon EMR集群

  4. 新建Amazon EMR集群页面,配置以下参数。

    • 基本信息

      参数

      描述

      集群名称

      输入当前集群的名称,仅支持中文、英文、数字、下划线(_)和短划线(-),长度不超过128个字符。

      集群管理员

      选择一个或多个当前租户下的成员,成为当前集群的集群管理员。集群管理员可管理当前集群,支持编辑、查看历史版本和删除操作。

      描述(非必填)

      输入当前集群的简单描述,长度不超过128个字符。

    • 集群安全管控

      可使用成员:新建计算源时哪些用户可以引用当前集群的配置信息,可选择拥有“新建计算源”权限的角色指定用户

      • 拥有“新建计算源”权限的角色:默认选中。

      • 指定用户:支持选择一个或多个个人账号和用户组。

    • 集群配置

      参数

      描述

      主节点公有DNS

      将通过公有DNS获取VPC私有DNS,HiveSpark均通过私有DNS连接,格式为ec2-<public_ip>.<region>.compute.amazonaws.com

      密钥文件(*.pem

      访问主节点ec2的密钥对(新建EMR集群时所设定的密钥对)。

      core-site.xml

      可自行上传相关集群配置文件,或单击获取集群配置(需先填写主节点公有DNS并上传密钥文件),从主节点下载相关文件。

      yarn-site.xml

      hive-site.xml

      hdfs-site.xml

      集群存储

      当前仅支持选择HDFS

      元数据获取方式

      可选择HMSAmazon Glue

      • HMS:默认选择HMS。

      • Amazon Glue:选择Amazon Glue后,还需配置Glue Region Code、Glue AccessKey ID、Glue AccessKey Secret。

        • Glue Region Code:输入Amazon GlueRegion Code,例如ap-northeast-3,us-east-1,us-west-1。

        • Glue AccessKey IDGlue AccessKey Secret:输入Amazon Glue的访问AccessKey IDAccessKey Secret。

      Hive JDBC URL

      输入HiveJDBC连接地址,或自动获取连接地址(需先填写主节点公有DNS并上传密钥文件)。Hive JDBC URL格式为jdbc:hive2//host1:port1,host2:post2/,无需填写Database name。

      Spark SQL

      选择开启关闭,开启后还需配置Spark JDBC URL

      Spark JDBC URL

      输入SparkJDBC连接地址,格式为jdbc:hive2//host1:port1/jdbc:kyuubi://host1:port1/,无需填写Database name。

      说明

      仅当开启Spark SQL时,需要配置此项。

      用户名

      HiveSpark的指定用户名,此用户名将设置为JDBCusername

      Spark本地客户端

      选择开启或关闭,开启后需上传Spark客户端文件。

      说明

      请从Spark官网下载相应版本的Spark客户端或提供自有客户端(须与社区版目录结构一致,附带Hadoop客户端),上传完整的压缩包(格式为.tgz或.zip)。Dataphin使用上传的客户端通过调度集群提交Job,可以实现Job的全生命周期管理。

  5. 单击测试连接,测试连接通过后,单击保存,完成Amazon EMR集群的创建。

管理Amazon EMR集群

  1. Dataphin首页的顶部菜单栏中,选择规划 > 计算源

  2. 计算源页面,单击管理Amazon EMR集群

  3. 管理Amazon EMR集群对话框中,查看Amazon EMR集群列表,列表中展示集群名称、集群管理员、关联计算源、创建信息和修改信息等。

    • 关联计算源:展示关联计算源的总数,单击image图标查看关联计算源的列表,单击计算源名称将跳转至计算源页面。

    • 创建信息:记录创建用户和创建时间。

    • 修改信息:记录最近一次编辑当前集群的用户名和修改时间。

    说明

    计算任务只能在一个集群中运行,不同Amazon EMR集群之间的数据无法进行联接操作。

  4. (可选)可在搜索框中输入集群名称,进行模糊搜索。

  5. Amazon EMR集群列表操作列中,对目标集群进行相关管理操作。支持的操作如下。

    操作项

    说明

    查看

    单击目标集群操作列的image图标,查看集群当前版本的详细信息。拥有Amazon EMR集群-管理权限的用户,可下载集群配置文件。

    编辑

    单击目标集群操作列的image图标,打开编辑Amazon EMR集群页面。您可在编辑Amazon EMR集群页面中修改已有的配置。修改完成后,单击保存,在弹出的对话框中填写变更说明并单击确定

    克隆

    单击目标集群操作列的image图标,系统将自动克隆当前集群的所有数据并打开新建Amazon EMR集群页面,您可在已有配置基础上进行修改。

    历史版本

    单击目标集群操作列的image图标,选择历史版本,对话框中展示当前集群各版本信息,包含版本名称、修改人、变更说明等信息。您可在历史版本进行查看对比操作。

    • 查看:单击目标版本操作列中的image图标,跳转至查看Amazon EMR集群页面,查看集群当前版本的详细信息。拥有Amazon EMR集群-管理权限的用户,可下载集群配置文件。

    • 对比:单击目标版本操作列中的image图标,跳转至版本对比页面。可在对比页面中筛选的下拉列表中选择不同版本,默认将当前版本的Amazon EMR集群和目标版本进行对比。

    删除

    说明
    • 仅在当前Amazon EMR集群下没有关联的计算源时,支持删除当前集群。

    • 集群删除后无法恢复

    单击目标集群操作列的image图标,选择删除,在弹出的对话框中,单击确定