通过阿里云E-MapReduce(简称EMR),您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架,以进行大规模数据处理和分析等操作。本文为您介绍在EMR on ECS上创建集群的操作步骤和相关配置,帮助您快速搭建和管理大数据集群。
说明 如果您在2022年12月19日17点(UTC+8)以后第一次创建EMR集群,则不能选择Hadoop、Data Science、Presto、Zookeeper集群类型。
注意事项
EMR-5.12.1及后续版本,EMR-3.46.1及后续版本的DataLake、DataFlow、DataServing和Custom集群,如果所选服务可以不依赖Core节点,则可以在节点组区域单击操作列的移除节点组。
操作步骤
登录E-MapReduce控制台。
在顶部菜单栏处,根据实际情况选择地域和资源组。
单击上方的创建集群。
根据界面提示,配置集群信息。
创建集群时,您需要对集群进行软件配置、硬件配置、基础配置和确认订单。
说明 集群创建完成后,除了集群名称以外,其他配置均无法修改,所以在创建时请仔细确认各项配置。
当所有的信息确认正确后,阅读《E-MapReduce服务条款》及《阿里云产品服务协议》,如无疑问,选中服务协议。
单击确认订单。
配置项说明
软件配置
配置项 | 描述 |
地域 | 地域指数据中心所在的地理区域,选择距离近的地域可以降低网络时延,实例创建完成后不支持更改地域。 在地域下拉列表中选择EMR实例所在的物理位置。 |
业务场景 | 请您根据自身实际场景进行选择: 数据湖(DataLake):提供更灵活、可靠、高效的管理集群,更快的运行大数据计算引擎并提供出色的数据分析能力。 更多信息,请参见数据湖集群。 数据分析(OLAP):将海量数据通过导入或者外表等形式引入到OLAP分析引擎里,例如,ClickHouse、StarRocks,提供高效、实时和灵活的数据分析能力,满足用户画像、人群圈选、BI报表和业务分析等一系列的业务场景。 实时数据流(DataFlow):是EMR平台上提供的实时计算一站式解决方案,拥有分布式、高吞吐量和高可扩展性的消息系统Kafka和基于Apache Flink官方产品Ververica提供的Flink商业内核两大组件,专注于解决实时计算端到端的各类问题,广泛应用于实时数据ETL和日志采集分析等场景,您也可以单独使用其中任一组件。 数据服务(DataServing): 更多信息,请参见数据服务集群。 自定义集群(Custom):自定义集群提供了丰富的服务搭配。您可以根据需求选择需要的服务。
说明 在生产环境中,建议避免将多个存储服务部署在同一个节点组上。
|
产品版本 | EMR产品的发行版本,详细请参见版本概述。 |
服务高可用 | 默认关闭。开启高可用后,EMR会创建多个Master节点来支持ResourceManager和NameNode的高可用,并将他们分布在多个底层硬件上,以降低故障风险。 |
可选服务 | 根据您的实际需求选择其他的一些服务,被选中的服务会默认启动相关的服务进程。 |
允许采集服务运行日志 | 支持一键开启或关闭所有服务的日志采集。默认开启,将收集您的服务运行日志,这些日志仅供集群诊断使用。 集群创建后,您可以在基础信息页面,修改服务运行日志收集状态。
重要 关闭日志采集后,EMR的健康检查和技术支持将受到限制,但其他功能仍可正常使用。如何关闭及影响详情,请参见如何停止采集服务日志?。 |
元数据 | 支持以下方式存储和管理元数据: DLF统一元数据(推荐):表示元数据存储在数据湖构建DLF中。
重要 选择该方式时,需要开通数据湖构建DLF产品,您可以单击下方的开通,前往DLF控制台操作。 开通DLF后,系统会为您选择默认的DLF数据目录,默认为UID。如果针对不同集群您期望使用不同的数据目录,则可以按照以下方式新建目录。 单击创建数据目录,在弹出的对话框中输入目录ID,单击确定。详情请参见数据目录。 在DLF数据目录下拉列表中,选择您新建的数据目录。
自建RDS:选择您自有的或阿里云RDS实例作为元数据存储。 选择该方式时,需要配置RDS相关的参数,详情请参见配置自建RDS。 内置MySQL(不推荐):该方式的元数据存储在集群本地环境的MySQL数据库中。
说明 测试场景:推荐使用DLF统一元数据。 生产场景:可以使用DLF统一元数据或自建RDS。
|
集群存储根路径 | 当您在可选服务区域选择了OSS-HDFS服务时,需要配置该参数,如果选择的是HDFS服务,则无需配置该参数。
重要 在EMR控制台通过单击创建OSS-HDFS实例按钮创建的Bucket,仅支持通过EMR进行读写操作,不支持控制台及API操作。 首次使用OSS-HDFS服务时,阿里云账号(主账号)需要单击此处,根据提示信息完成授权。RAM用户需要阿里云账号授权开通并授予AliyunEMRDlsFullAccess权限,以及AliyunOSSDlsDefaultRole和AliyunEMRDlsDefaultRole角色,详情请参见为RAM用户授权。选择一个已在同一地域下开通了OSS-HDFS服务的Bucket,或者单击创建OSS-HDFS实例,根据提示信息创建一个OSS-HDFS实例,作为集群的存储根路径。 |
与服务及版本相关的配置项
以下配置项跟所选产品版本和服务有关。
仅EMR-5.12.0及之前版本,EMR-3.46.0及之前版本,且选择了Hive服务时,需配置以下参数。
参数 | 说明 |
Hive存储模式 | 使用数据湖存储OSS-HDFS或OSS作为数据仓库的存储目录。如果取消勾选,则使用集群HDFS作为存储目录。 默认勾选时,还需配置Hive数据仓库路径,建议选择开通了HDFS服务的Bucket。
说明 请确保具有访问OSS或OSS-HDFS Bucket的权限。 |
仅EMR-5.12.0及之前版本,EMR-3.46.0及之前版本,选择了HBase服务时,需配置以下参数。
参数 | 说明 |
HBase存储模式 | 用于存储HBase的数据文件,支持以下模式:OSS-HDFS和OSS。 选择OSS-HDFS模式时,还需配置HBase存储路径,建议选择开通了HDFS服务的Bucket。 |
仅EMR-5.12.1及后续版本,EMR-3.46.1及后续版本,选择了OSS-HDFS和HBase服务后,还需配置以下参数。集群创建完成后,会生成一个HBase-HDFS服务,详情请参见HBASE-HDFS。
参数 | 说明 |
HBase日志存储 | 默认勾选,表示HBase将HLog文件存储在HDFS中。 |
更多场景
重要 如果您在2022年12月19日17点(UTC+8)以后第一次创建EMR集群,则不能选择以下集群类型。
(可选)高级设置
配置项 | 说明 |
Kerberos身份认证 | 默认不开启。Kerberos是一种基于对称密钥技术的身份认证协议,可以为其他服务提供身份认证功能,详情请参见Kerberos概述。 |
软件自定义配置 | 可指定JSON文件对集群中的基础软件(例如Hadoop、Spark和Hive等)进行配置,详细使用方法请参见配置自定义软件。默认不开启。 |
硬件配置
配置项 | 说明 |
付费类型 | 默认为包年包月。当前支持的付费类型如下: |
可用区 | 可用区为在同一地域下的不同物理区域,可用区之间内网互通。通常使用默认的可用区即可。 |
专有网络 | 专有网络是您在阿里云自己定义的一个隔离网络环境,您可以完全掌控自己的专有网络。 选择已有的专有网络,或者单击创建VPC前往专有网络控制台即时创建专有网络,详情请参见创建和管理专有网络。
说明 创建集群后无法修改内网IP地址,因为集群的内网IP与VPC(Virtual Private Cloud)之间存在绑定关系。 |
交换机 | 交换机(vSwitch)是组成专有网络VPC的基础网络模块,用来连接不同的云资源。 选择已有的交换机,或者单击创建交换机前往专有网络控制台即时创建交换机,详情请参见创建和管理交换机。 |
默认安全组 | 安全组是一种虚拟防火墙,用于控制安全组内实例的入流量和出流量。更多信息,请参见安全组概述。 选择已有的安全组,或者单击新建安全组前往ECS控制台新建一个安全组,详情请参见创建安全组。 |
节点组 | 您可以根据需要选择实例规格,详情请参见实例规格族。 Master:主要负责ResourceManager和NameNode等控制进程的部署。 Core:主要负责集群所有数据的存储,创建集群完成后也支持按需进行扩容。 Task:不保存数据,调整集群的计算力使用。默认不开启,需要时可自定义配置。 加入部署集:开启高可用后,Master默认加入部署集。部署集是控制实例分布的策略,详情请参见部署集。 系统盘:根据需要选择SSD云盘、ESSD云盘或者高效云盘。系统盘大小请根据需要调整。 数据盘:根据需要选择SSD云盘、ESSD云盘或者高效云盘。数据盘大小请根据需要调整。
说明 当您选择ESSD云盘时,可以根据所选云盘的容量大小来设置不同的性能级别(PL级别),以满足不同的集群性能需求。默认的性能级别为PL1。根据云盘的容量范围,系统盘支持PL0、PL1和PL2三个性能级别的云盘规格,数据盘支持PL0、PL1、PL2和PL3四个性能级别的云盘规格。云盘的详细信息,请参见云盘概述。 实例数量:Master节点组默认1台。如果开启高可用,可以有多台Master实例。 Core节点组默认2台,您可以根据需要调整。 附加安全组:附加安全组可以灵活定制不同的外部资源或应用程序之间的访问。您最多可以为该节点组关联2个附加安全组。 挂载公网:集群是否挂载弹性公网IP地址,默认不开启。仅DataLake集群支持节点组级别挂载公网。
说明 如果您未开启该功能,创建后您想使用公网IP地址访问,请在ECS上申请开通公网IP地址,详情请参见弹性公网IP中的申请EIP的内容。
|
基础配置
配置项 | 说明 |
集群名称 | 集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。 |
身份凭证 | 身份凭证用于安全地登录集群的Master节点,登录操作请参见登录集群。支持以下身份: 密钥对(默认):选择已有的密钥对,或者单击新建密钥对即时创建密钥对。 密钥对是一种安全便捷的登录认证方式,由公钥和私钥组成,仅支持Linux实例。关于密钥对的使用详情,请参见SSH密钥对。 密码:设置Master节点的登录密码,并输入确认密码。用户名默认为root。
|
(可选)高级设置
配置项 | 说明 |
ECS应用角色 | 当用户的程序在EMR计算节点上运行时,可不填写阿里云AccessKey来访问相关的云服务(例如OSS),EMR会自动申请一个临时AccessKey来授权本次访问。ECS应用角色用于控制该AccessKey的权限。 |
引导操作 | 在集群启动前执行的脚本,可以安装第三方软件或者修改集群运行环境,详情请参见管理引导操作。 |
释放保护 | 您可以在创建按量付费集群时开启释放保护,也可以在集群创建后开启,以防止集群被意外释放。开启释放保护后,您将无法直接释放该集群。如需释放集群,需先关闭释放保护,详情请参见开启和关闭释放保护。 |
标签 | 您可以在创建集群时绑定标签,也可以在集群创建完成后添加标签,这可以方便您识别和管理拥有的集群资源,详情请参见设置标签。 |
资源组 | 资源组会对您拥有的云资源从用途、权限和归属等维度上进行分组,详情请参见使用资源组。 |
数据盘加密 | 仅支持在创建集群时开启该功能。打开该功能,数据盘上的动态数据传输以及静态数据都会被加密,详情请参见开启数据盘加密。 |
系统盘加密 | 仅支持在创建集群时开启该功能。打开该功能,系统盘上的操作系统、程序文件及其他系统相关数据将会被加密,详情请参见开启系统盘加密。 |
备注 | 用于记录集群的重要信息,创建集群后支持在基础信息页面对备注进行修改。 如果在创建集群时未设置备注,用户可以在创建后对该参数进行编辑。 |
确认订单
(可选)保存为集群模板:如果身份认证选择的密钥对,则可以单击保存为集群模板,保存当前集群的配置信息为集群模板。
在保存为集群模板对话框中,输入集群模板名称,选择集群模板资源组。
参数 | 说明 |
集群模板名称 | 输入集群模板的名称,方便后期管理。长度限制为1-64个字符,只允许包含中文、字母、数字、-、_。 |
集群模板资源组 | 根据需要选择已有的资源组,方便对模板进行分组管理。 如果需要创建新的资源组,您可以单击下方的创建资源组,详情请参见创建资源组。 |
单击确定。
即会在管理集群模板面板中新增一个集群模板。集群模板的详细信息,请参见创建集群模板。