权限说明
超级管理员、系统管理员和拥有Amazon EMR集群-管理权限的自定义全局角色,均可创建和管理Amazon EMR集群。同时,这些用户可设置在创建Amazon EMR计算源时可引用该集群的用户,以及为该集群指定集群管理员。
支持集群管理员对自己负责的集群进行管理。
拥有计算源管理-新建自定义全局角色的用户,可以在创建Amazon EMR计算源时,选择引用自己有使用权限的Amazon EMR集群。
创建Amazon EMR集群
在Dataphin首页的顶部菜单栏中,选择规划 > 计算源。
在计算源页面,单击管理Amazon EMR集群。
在管理Amazon EMR集群对话框中,单击+新建Amazon EMR集群。
在新建Amazon EMR集群页面,配置以下参数。
基本信息
参数
描述
集群名称
输入当前集群的名称,仅支持中文、英文、数字、下划线(_)和短划线(-),长度不超过128个字符。
集群管理员
选择一个或多个当前租户下的成员,成为当前集群的集群管理员。集群管理员可管理当前集群,支持编辑、查看历史版本和删除操作。
描述(非必填)
输入当前集群的简单描述,长度不超过128个字符。
集群安全管控
可使用成员:新建计算源时哪些用户可以引用当前集群的配置信息,可选择拥有“新建计算源”权限的角色或指定用户。
拥有“新建计算源”权限的角色:默认选中。
指定用户:支持选择一个或多个个人账号和用户组。
集群配置
参数
描述
主节点公有DNS
将通过公有DNS获取VPC私有DNS,Hive和Spark均通过私有DNS连接,格式为
ec2-<public_ip>.<region>.compute.amazonaws.com
。密钥文件(*.pem)
访问主节点ec2的密钥对(新建EMR集群时所设定的密钥对)。
core-site.xml
可自行上传相关集群配置文件,或单击获取集群配置(需先填写主节点公有DNS并上传密钥文件),从主节点下载相关文件。
yarn-site.xml
hive-site.xml
hdfs-site.xml
集群存储
当前仅支持选择HDFS。
元数据获取方式
可选择HMS或Amazon Glue。
HMS:默认选择HMS。
Amazon Glue:选择Amazon Glue后,还需配置Glue Region Code、Glue AccessKey ID、Glue AccessKey Secret。
Glue Region Code:输入Amazon Glue的Region Code,例如ap-northeast-3,us-east-1,us-west-1。
Glue AccessKey ID、Glue AccessKey Secret:输入Amazon Glue的访问AccessKey ID和AccessKey Secret。
Hive JDBC URL
输入Hive的JDBC连接地址,或自动获取连接地址(需先填写主节点公有DNS并上传密钥文件)。Hive JDBC URL格式为
jdbc:hive2//host1:port1,host2:post2/
,无需填写Database name。Spark SQL
选择开启或关闭,开启后还需配置Spark JDBC URL。
Spark JDBC URL
输入Spark的JDBC连接地址,格式为
jdbc:hive2//host1:port1/
或jdbc:kyuubi://host1:port1/
,无需填写Database name。说明仅当开启Spark SQL时,需要配置此项。
用户名
Hive或Spark的指定用户名,此用户名将设置为JDBC的
username
。Spark本地客户端
选择开启或关闭,开启后需上传Spark客户端文件。
说明请从Spark官网下载相应版本的Spark客户端或提供自有客户端(须与社区版目录结构一致,附带Hadoop客户端),上传完整的压缩包(格式为.tgz或.zip)。Dataphin使用上传的客户端通过调度集群提交Job,可以实现Job的全生命周期管理。
单击测试连接,测试连接通过后,单击保存,完成Amazon EMR集群的创建。
管理Amazon EMR集群
在Dataphin首页的顶部菜单栏中,选择规划 > 计算源。
在计算源页面,单击管理Amazon EMR集群。
在管理Amazon EMR集群对话框中,查看Amazon EMR集群列表,列表中展示集群名称、集群管理员、关联计算源、创建信息和修改信息等。
关联计算源:展示关联计算源的总数,单击
图标查看关联计算源的列表,单击计算源名称将跳转至计算源页面。
创建信息:记录创建用户和创建时间。
修改信息:记录最近一次编辑当前集群的用户名和修改时间。
说明计算任务只能在一个集群中运行,不同Amazon EMR集群之间的数据无法进行联接操作。
(可选)可在搜索框中输入集群名称,进行模糊搜索。
在Amazon EMR集群列表操作列中,对目标集群进行相关管理操作。支持的操作如下。
操作项
说明
查看
单击目标集群操作列的
图标,查看集群当前版本的详细信息。拥有Amazon EMR集群-管理权限的用户,可下载集群配置文件。
编辑
单击目标集群操作列的
图标,打开编辑Amazon EMR集群页面。您可在编辑Amazon EMR集群页面中修改已有的配置。修改完成后,单击保存,在弹出的对话框中填写变更说明并单击确定。
克隆
单击目标集群操作列的
图标,系统将自动克隆当前集群的所有数据并打开新建Amazon EMR集群页面,您可在已有配置基础上进行修改。
历史版本
单击目标集群操作列的
图标,选择历史版本,对话框中展示当前集群各版本信息,包含版本名称、修改人、变更说明等信息。您可在历史版本进行查看和对比操作。
查看:单击目标版本操作列中的
图标,跳转至查看Amazon EMR集群页面,查看集群当前版本的详细信息。拥有Amazon EMR集群-管理权限的用户,可下载集群配置文件。
对比:单击目标版本操作列中的
图标,跳转至版本对比页面。可在对比页面中筛选的下拉列表中选择不同版本,默认将当前版本的Amazon EMR集群和目标版本进行对比。
删除
说明仅在当前Amazon EMR集群下没有关联的计算源时,支持删除当前集群。
集群删除后无法恢复。
单击目标集群操作列的
图标,选择删除,在弹出的对话框中,单击确定。