创建集群

更新时间: 2023-11-06 14:05:30

本文为您介绍在EMR on ECS控制台创建集群的详细操作步骤和相关配置。

说明

如果您在2022年12月19日17点(UTC+8)以后第一次创建EMR集群,则不能选择Hadoop、Data Science、Presto、Zookeeper集群类型。

前提条件

已完成RAM授权,详细信息请参见角色授权

注意事项

EMR-5.12.1及后续版本,EMR-3.46.1及后续版本的DataLake、DataFlow、DataServing和Custom集群,如果所选服务可以不依赖Core节点,则可以在节点组区域单击操作列的移除节点组

操作步骤

  1. 进入EMR on ECS页面。

    1. 登录E-MapReduce控制台

    2. 在顶部菜单栏处,根据实际情况选择地域和资源组。

      • 地域:创建的集群将会在对应的地域内,一旦创建不能修改。

      • 资源组:默认显示账号全部资源。

  2. 单击上方的创建集群

  3. 配置集群信息。

    创建集群时,您需要对集群进行软件配置、硬件配置、基础配置和确认订单。

    说明

    集群创建完成后,除了集群名称以外,其他配置均无法修改,所以在创建时请仔细确认各项配置。

    1. 软件配置。

      配置项

      描述

      地域

      集群节点ECS实例所在的物理位置。

      业务场景

      • 新版数据湖(DataLake):提供更灵活、可靠、高效的管理集群,更快的运行大数据计算引擎并提供出色的数据分析能力。

        • 支持构建数据湖架构,使用JindoFS进行数据湖加速。

        • 支持OSS-HDFS(全托管HDFS)作为存储,减少您的运维成本,完全基于使用量计费。

        更多信息,请参见数据湖集群

      • 数据分析(OLAP):将海量数据通过导入或者外表等形式引入到OLAP分析引擎里,例如,Clickhouse、StarRocks,提供高效、实时和灵活的数据分析能力,满足用户画像、人群圈选、BI报表和业务分析等一系列的业务场景。

      • 实时数据流(DataFlow):是EMR平台上提供的实时计算一站式解决方案,拥有分布式的、高吞吐量和高可扩展性的消息系统Kafka和基于Apache Flink官方产品Ververica提供的Flink商业内核两大组件,专注于解决实时计算端到端的各类问题、广泛应用于实时数据ETL和日志采集分析等场景,您也可以单独使用其中任一组件。

      • 数据服务(DataServing):

        • 提供更灵活、可靠、高效的数据服务集群。

        • 提供半托管HBase集群,同时可以基于OSS-HDFS(JindoFS服务)解耦计算集群与数据存储。

        • 支持JindoData本地缓存以进一步提高数据服务集群的读写性能。

        更多信息,请参见数据服务集群

      • 更多场景 > 自定义集群(Custom):您可以根据需求选择需要的服务。

        说明

        在生产环境下请不要部署多个存储服务在一个节点组上。

      • 更多场景 > 机器学习(Data Science):主要面向大数据+AI场景。

        • 提供分布式深度学习框架。

        • 提供两百多种经典机器学习算法包。

        • 提供AutoML能力,10余种深度学习算法,覆盖推荐和广告等场景。

      • 更多场景 > 数据湖:用于构建大规模数据处理框架和管道,适用于大数据分析,支持Apache Hive、Spark和Presto等开源框架。支持的集群类型如下:

        • Hadoop

          • 提供最丰富的开源组件列表,完全兼容Hadoop生态。

          • 可应用于大数据离线处理、实时处理和交互式查询等多种使用场景。

          • 支持构建数据湖架构,使用JindoFS进行数据湖加速。

        • Zookeeper:提供独立的分布式一致性锁服务,适用于大规模的Hadoop集群、HBase集群和Kafka集群。

        • Presto:是基于内存的分布式SQL交互式查询引擎。支持多种数据源,适合PB级海量数据的复杂分析,以及跨数据源的查询。

      产品版本

      默认展示最新的软件版本。

      服务高可用

      默认关闭。开启后,集群会有多个Master节点来支持ResourceManager和NameNode的高可用。

      可选服务

      根据您的实际需求选择其他的一些服务,被选中的服务会默认启动相关的服务进程。

      说明

      服务越多,对机器的配置要求也越高,所以在下面的步骤中您需要根据实际的服务数量进行机器选型,否则可能没有足够的资源运行这些服务。

      允许采集服务运行日志

      支持一键开启或关闭所有服务的日志采集。默认开启。开启后,将收集您的服务运行日志,这些日志仅供集群诊断使用。

      集群创建后,您可以在基础信息页面,修改服务运行日志收集状态

      重要

      关闭日志采集后,EMR的健康检查和技术支持将受到限制,但其他功能仍可正常使用。如何关闭及影响详情,请参见如何停止采集服务日志?

      元数据

      支持以下方式存储和管理元数据:

      • DLF统一元数据:表示元数据存储在数据湖构建DLF中。

        重要

        选择该方式时,需要开通数据湖构建DLF产品,您可以单击下方的开通,前往DLF控制台操作。

        开通DLF后,系统会为您选择默认的DLF数据目录,默认为UID。如果针对不同集群您期望使用不同的数据目录,则可以按照以下方式新建目录。

        • 单击创建数据目录,在弹出的对话框中输入目录ID,单击确定详情请参见数据目录

        • DLF数据目录下拉列表中,选择您新建的数据目录。

      • 自建RDS:表示使用自建的阿里云RDS作为元数据库。

        选择该方式时,需要配置已有RDS相关的参数,详情请参见配置自建RDS

      • 内置MySQL:不建议使用,该方式的元数据存储在集群本地环境的MySQL数据库中。

        说明
        • 测试场景:推荐使用DLF统一元数据

        • 生产场景:可以使用DLF统一元数据自建RDS

      集群存储根路径

      当您在可选服务区域选择了OSS-HDFS服务时,需要配置该参数,如果选择的是HDFS服务,则无需配置该参数。

      选择一个开通了OSS-HDFS服务的Bucket。

      说明
      • 在选择使用OSS-HDFS服务之前,请确保您选择的地域支持该服务。否则,您可以尝试更换地域或使用HDFS服务替代OSS-HDFS服务。OSS-HDFS服务目前支持的地域信息,请参见开通并授权访问OSS-HDFS服务

      • EMR-5.12.1及后续版本,EMR-3.46.1及后续版本的DataLake、DataFlow、DataServing和Custom集群,支持选择OSS-HDFS服务。如果选择HDFS服务而非OSS-HDFS服务,则无需配置该参数。

      HBase日志存储

      默认勾选,表示HBase将HLog文件存储在HDFS中。

      说明

      EMR-5.12.1及后续版本,EMR-3.46.1及后续版本,选择了OSS-HDFS和HBase服务时,才会显示此参数。

      Hive存储模式

      默认勾选,使用数据湖存储OSS-HDFS或OSS作为数据仓库的存储目录。如果取消勾选,则使用集群HDFS作为存储目录。

      说明

      仅EMR-5.12.0及之前版本,EMR-3.46.0及之前版本,且选择了Hive服务时,才会显示此参数。

      Hive数据仓库路径

      选择一个OSS或OSS-HDFS Bucket。推荐选择OSS-HDFS Bucket。

      说明
      • 仅EMR-5.12.0及之前版本,EMR-3.46.0及之前版本,且选择了Hive服务时,才会显示此参数。

      • 请确保具有访问OSS/OSS-HDFS Bucket的权限。

      HBase存储模式

      使用数据湖存储OSS-HDFS或HDFS存储HBase的数据文件。

      说明

      仅EMR-5.12.0及之前版本,EMR-3.46.0及之前版本,且选择了HBase服务时,才会显示此参数。

      HBase存储路径

      选择OSS-HDFS Bucket。

      说明

      仅EMR-5.12.0及之前版本,EMR-3.46.0及之前版本,选择了HBase服务,且HBase存储模式选择OSS-HDFS时,才会显示此参数。

      高级设置

      • Kerberos身份认证:是否开启集群的Kerberos认证功能。默认不开启。

        重要

        Knox和Kudu服务不支持开启Kerberos身份认证。

      • 软件自定义配置:可指定JSON文件对集群中的基础软件(例如Hadoop、Spark和Hive等)进行配置,详细使用方法请参见配置自定义软件。默认不开启。

        说明

        针对Hive作业并发量的设置,请参见如何预估Hive作业并发量的上限值?

    2. 硬件配置。

      配置项

      说明

      付费类型

      默认包年包月。当前支持的付费类型如下:

      • 按量付费:一种后付费模式,即先使用再付费。按量付费是根据实际使用的小时数来支付费用,每小时计费一次,适合短期的测试任务或是灵活的动态任务。

      • 包年包月:一种预付费模式,即先付费再使用。

        说明
        • 建议测试场景下使用按量付费,测试正常后再新建一个包年包月的生产集群正式使用。

        • 包年包月实例还需选择付费时长和是否开启自动续费。默认续费时长为6个月,且开启自动续费。开启自动续费后,实例到期前7天会执行自动续费操作,详情请参见续费说明

      可用区

      可用区为在同一地域下的不同物理区域,可用区之间内网互通。通常使用默认的可用区即可。

      专有网络

      专有网络是您在阿里云自己定义的一个隔离网络环境,您可以完全掌控自己的专有网络。

      选择已有的专有网络,或者单击创建VPC前往专有网络控制台即时创建专有网络,详情请参见创建和管理专有网络

      交换机

      交换机(vSwitch)是组成专有网络VPC(Virtual Private Cloud)的基础网络模块,用来连接不同的云资源。

      选择已有的交换机,或者单击创建交换机前往专有网络控制台即时创建交换机,详情请参见创建和管理交换机

      默认安全组

      安全组是一种虚拟防火墙,用于控制安全组内实例的入流量和出流量。更多信息,请参见安全组概述

      选择已有的安全组,或者单击新建安全组前往ECS控制台新建一个安全组,详情请参见创建安全组

      重要

      禁止使用ECS上创建的企业安全组。

      节点组

      您可以根据需要选择实例规格,详情请参见实例规格族

      • 节点组类型

        • Master:主要负责ResourceManager和NameNode等控制进程的部署。

        • Core:主要负责集群所有数据的存储,创建集群完成后也支持按需进行扩容。

        • Task:不保存数据,调整集群的计算力使用。默认不开启,需要时可自定义配置。

      • 节点组配置项

        • 加入部署集:开启高可用后,Master默认加入部署集。部署集是控制实例分布的策略,详情请参见部署集概述

        • 系统盘:根据需要选择SSD云盘、ESSD云盘或者高效云盘。系统盘大小请根据需要调整。

        • 数据盘:根据需要选择SSD云盘、ESSD云盘或者高效云盘。数据盘大小请根据需要调整。

          说明

          当您选择ESSD云盘时,可以根据所选云盘的容量大小来设置不同的性能级别(PL级别),以满足不同的集群性能需求。默认的性能级别为PL1。根据云盘的容量范围,系统盘支持PL0、PL1和PL2三个性能级别的云盘规格,数据盘支持PL0、PL1、PL2和PL3四个性能级别的云盘规格。云盘的详细信息,请参见云盘概述

        • 实例数量:Maseter节点组默认1台。如果开启高可用,可以有多台Master实例。

          Core节点组默认2台,您可以根据需要调整。

        • 附加安全组:附加安全组可以灵活定制不同的外部资源或应用程序之间的访问。您最多可以为该节点组关联2个附加安全组。

        • 挂载公网:集群是否挂载弹性公网IP地址,默认不开启。仅DataLake集群支持节点组级别挂载公网。

          说明

          如果您未开启该功能,创建后您想使用公网IP地址访问,请在ECS上申请开通公网IP地址,详情请参见弹性公网IP中的申请EIP的内容。

    3. 基础配置。

      配置项

      说明

      集群名称

      集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。

      身份凭证

      身份凭证用于安全地登录集群的Master节点,登录操作请参见登录集群。支持以下身份:

      • 密钥对(默认):选择已有的密钥对,或者单击新建密钥对即时创建密钥对。

        密钥对是一种安全便捷的登录认证方式,由公钥和私钥组成,仅支持Linux实例。关于密钥对的使用详情,请参见SSH密钥对

      • 密码:设置Master节点的登录密码,并输入确认密码。用户名默认为root。

        • 密码规则:8~30个字符,且必须同时包含大写字母、小写字母、数字和特殊字符。

        • 特殊字符包括:感叹号(!)、at(@)、井号(#)、美元符号($)、百分号(%)、乘方(^)、and(&)和星号(*)。

      高级设置

      • ECS应用角色:当用户的程序在EMR计算节点上运行时,可不填写阿里云AccessKey来访问相关的云服务(例如OSS),EMR会自动申请一个临时AccessKey来授权本次访问。ECS应用角色用于控制该AccessKey的权限。

      • 引导操作:可选配置。在集群启动前执行的脚本,可以安装第三方软件或者修改集群运行环境,详情请参见管理引导操作

      • 标签:可选配置。您可以在创建集群时绑定标签,也可以在集群创建完成后。添加标签,可以方便您识别和管理拥有的集群资源,详情请参见设置标签

      • 资源组:可选配置。资源组会对您拥有的云资源从用途、权限和归属等维度上进行分组,详情请参见使用资源组

      • 数据盘加密:可选配置。仅支持在创建集群时开启该功能。打开该功能,数据盘上的动态数据传输以及静态数据都会被加密,详情请参见开启数据盘加密

      说明

      页面右边会显示您所创建集群的配置清单以及集群费用。根据不同的付费类型,展示不同的价格信息。

  4. 当所有的信息确认正确后,选中服务协议

  5. (可选)如果身份认证选择的密钥对,则可以单击保存为集群模板,保存当前集群的配置信息为集群模板。

    1. 保存为集群模板对话框中,输入集群模板名称,选择集群模板资源组

      参数

      说明

      集群模板名称

      输入集群模板的名称,方便后期管理。长度限制为1-64个字符,只允许包含中文、字母、数字、-、_。

      集群模板资源组

      根据需要选择已有的资源组,方便对模板进行分组管理。

    2. 单击确定

      即会在管理集群模板面板中新增一个集群模板。集群模板的详细信息,请参见创建集群模板

  6. 单击确认订单

    重要
    • 按量付费集群:立刻开始创建。 集群创建完成后,集群的状态变为运行中

    • 包年包月集群:先生成订单,支付完成订单以后集群才会开始创建。

阿里云首页 开源大数据平台E-MapReduce 相关技术圈