通过阿里云E-MapReduce(简称EMR),您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架,以进行大规模数据处理和分析等操作。本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置,帮助您快速搭建和管理大数据集群。
如果您在2022年12月19日17点(UTC+8)以后第一次创建EMR集群,则不能选择Hadoop、Data Science、Presto、Zookeeper集群类型。
前提条件
已完成RAM授权,详情请参见阿里云账号角色授权。
注意事项
EMR-5.12.1及后续版本,EMR-3.46.1及后续版本的DataLake、DataFlow、DataServing和Custom集群,如果所选服务可以不依赖Core节点,则可以在节点组区域单击操作列的移除节点组。
操作步骤
-
在顶部菜单栏处,根据实际情况选择地域和资源组。
-
地域:创建的集群将会在对应的地域内,一旦创建不能修改。
-
资源组:默认显示账号全部资源。
-
-
单击上方的创建集群。
-
根据界面提示,配置集群信息。
创建集群时,您需要对集群进行软件配置、硬件配置、基础配置和确认订单。
说明集群创建完成后,除了集群名称以外,其他配置均无法修改,所以在创建时请仔细确认各项配置。
-
当所有的信息确认正确后,单击确认订单。
重要-
按量付费集群:立刻开始创建。 集群创建完成后,集群的状态变为运行中。
-
包年包月集群:先生成订单,支付完成订单以后集群才会开始创建。
-
配置项说明
软件配置
|
配置项 |
描述 |
|
地域 |
地域指数据中心所在的地理区域,选择距离近的地域可以降低网络时延,实例创建完成后不支持更改地域。 在地域下拉列表中选择EMR实例所在的物理位置。 |
|
业务场景 |
请您根据自身实际场景进行选择:
|
|
产品版本 |
EMR产品的发行版本,详细请参见发行版本。 |
|
服务高可用 |
默认关闭。开启高可用后,EMR会创建多个Master节点来支持ResourceManager和NameNode的高可用,并将他们分布在多个底层硬件上,以降低故障风险。 |
|
可选服务(至少一项) |
根据您的实际需求选择其他的一些服务,被选中的服务会默认启动相关的服务进程。 重要
|
|
允许采集服务运行日志 |
支持一键开启或关闭所有服务的日志采集。默认开启,将收集您的服务运行日志,这些日志仅供集群诊断使用。 集群创建后,您可以在基础信息页面,修改服务运行日志收集状态。 重要
关闭日志采集后,EMR的健康检查和技术支持将受到限制,但其他功能仍可正常使用。如何关闭及影响详情,请参见如何停止采集服务日志?。 |
|
元数据 |
支持以下方式存储和管理元数据:
|
|
集群存储根路径 |
当您在可选服务区域选择了OSS-HDFS服务时,需要配置该参数,如果选择的是HDFS服务,则无需配置该参数。 重要
在EMR控制台通过单击创建 OSS-HDFS 实例按钮创建的Bucket,仅支持通过EMR进行读写操作,不支持控制台及API操作。 首次使用OSS-HDFS服务时,阿里云账号(主账号)需要单击此处,根据提示信息完成授权。RAM用户需要阿里云账号授权开通并授予AliyunEMRDlsFullAccess权限,以及AliyunOSSDlsDefaultRole和AliyunEMRDlsDefaultRole角色,详情请参见为RAM用户授权。选择一个已在同一地域下开通了OSS-HDFS服务的Bucket,或者单击创建 OSS-HDFS 实例,根据提示信息创建一个OSS-HDFS实例,作为集群的存储根路径。 说明
|
更多场景
硬件配置
|
配置项 |
说明 |
|
付费类型 |
默认为包年包月。当前支持的付费类型如下:
|
|
可用区 |
可用区为在同一地域下的不同物理区域,可用区之间内网互通。通常使用默认的可用区即可。 |
|
专有网络 |
专有网络是您在阿里云自己定义的一个隔离网络环境,您可以完全掌控自己的专有网络。 选择已有的专有网络,或者单击创建 VPC前往专有网络控制台即时创建专有网络,详情请参见创建和管理专有网络。 说明
创建集群后无法修改内网IP地址,因为集群的内网IP与VPC(Virtual Private Cloud)之间存在绑定关系。 |
|
交换机 |
交换机(vSwitch)是组成专有网络VPC的基础网络模块,用来连接不同的云资源。 选择已有的交换机,或者单击创建交换机前往专有网络控制台即时创建交换机,详情请参见创建和管理交换机。 |
|
默认安全组 |
安全组是一种虚拟防火墙,用于控制安全组内实例的入流量和出流量。更多信息,请参见安全组概述。 选择已有的安全组,或者单击新建安全组前往ECS控制台新建一个安全组,详情请参见创建安全组。 重要
禁止使用ECS上创建的企业安全组。 |
|
节点组 |
您可以根据需要选择实例规格,详情请参见实例规格族。
|
|
集群伸缩 |
您可根据需要选择弹性伸缩规则:
说明
|
基础配置
|
配置项 |
说明 |
|
集群名称 |
集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。 |
|
身份凭证 |
身份凭证用于安全地登录集群的Master节点,登录操作请参见登录集群。支持以下身份:
|
确认订单
(可选)保存为集群模板:如果身份认证选择的密钥对,则可以单击保存为集群模板,保存当前集群的配置信息为集群模板。