本文介绍创建 E-MapReduce(以下简称 EMR) 集群的详细操作步骤和相关配置。

进入创建集群页面

  1. 登录阿里云 E-MapReduce 控制台
  2. 完成 RAM 授权,操作步骤请参见角色授权
  3. 在上方选择所在的地域(Region),所创建集群将会在对应的地域内,一旦创建后不能修改。
  4. 单击创建集群,进行创建。

创建集群流程

注意 集群除了名字以外,一旦创建完成就无法被修改。所以在创建时请仔细确认需要的配置。

要创建集群,您需要继续完成以下 3 个步骤:

  1. 软件配置

    配置项说明:

    • 产品版本:EMR 产品的主要版本,代表了一整套的开源软件环境,它会定时的根据内部组成软件的升级进行升级。一般如果 Hadoop 相关的软件有进行升级,EMR 也会升级,这个时候就会升级这个主版本号。低版本的集群无法自动的升级到一个高版本上。
    • 集群类型:目前的EMR提供了:
      • Hadoop 集群,提供半托管的 Hadoop、Hive、Spark 离线大规模分布式数据存储和计算,SparkStreaming、Flink、Storm 流式数据计算,Presto、Impala 交互式查询,Oozie、Pig 等 Hadoop 生态圈的组件,具体的组件信息可以在选择界面的列表中查看。
      • Kafka 集群,是半托管分布式的、高吞吐量、高可扩展性的消息系统。提供一套完整的服务监控体系,保障集群稳定运行,用户无需部署运维,更专业、更可靠、更安全。广泛用于日志收集、监控数据聚合等场景,支持离线或流式数据处理、实时数据分析等。
      • Druid 集群,提供半托管式实时交互式分析服务,大数据查询毫秒级延迟,支持多种数据摄入方式。可与 EMR Hadoop、EMR Spark、OSS、RDS 等服务搭配组合使用,构建灵活稳健的实时查询解决方案。
      • Data Science 集群,主要面向大数据+ AI 场景,提供了 Hive、Spark 离线大数据 ETL,TensorFlow 模型训练,用户可以选择 CPU+GPU 的异构计算框架,利用英伟达 GPU 对部分深度学习算法进行高性能计算。
    • 必选服务:展示选择的集群类型下的所有的软件组件列表,包括名称和版本号。
    • 可选服务:根据需求,您可选择不同的组件,被选中的组件会默认启动相关的服务进程。
      说明 您选择的组件越多,对您机器的配置要求就越高,否则很可能无法有足够的资源来运行这些服务。
    • 高级设置
      • Kerberos 集群模式:是否开启集群的 Kerberos 认证功能。一般的个人用户集群无需该功能,默认关闭。
      • 软件自定义配置:可以指定一个 json 文件对集群中的基础软件例如 Hadoop、Spark、Hive 等进行配置,详细使用方法请参见软件配置
  2. 硬件配置

    配置项说明:

    • 付费配置
      • 付费类型:包年包月是一次性支付一个长期的费用,价格相对来说会比较便宜,特别是包三年的时候折扣会很大。按量付费是根据实际使用的小时数来支付费用,每个小时计一次费用。适合与短期的测试或者是灵活的动态任务,价格相对来说会贵一些。
        • 按量付费
        • 包年包月
          • 付费时长:您可选择购买 1 个月、2 个月、3 个月、6 个月、9 个月、1 年、2 年、3 年。包年包月如果购买一年则会在原价(12个月)的基础上打 85 折。
          • 自动续费:到期前7天执行自动续费操作,续费时长为一个月。
    • 网络配置
      • 可用区:选择集群所在的可用区(Zone),可用区为在同一地域下的不同物理区域,可用区之间内网互通。不同的可用区会有不同的机型和磁盘。在每个 Region 内存在多个可用区。可用区在物理上属于不同的区域,一般来说如果需要较好的网络,推荐您选择相同的可用区,但是这样也会使创建集群失败的风险增大,因为单个可用区的存库不一定那么充足。如果需要大量的机器可以工单咨询我们。
      • 网络类型:默认使用专有网络(VPC),专有网络需要额外提供所属 VPC 以及子网(交换机),若还未创建,可前往 VPC控制台进行创建。E-MapReduce 专有网络详细使用说明查看专有网络

      • VPC:选择在该地域的 VPC。如没有,单击创建 VPC / 子网(交换机)前往新建。
      • 交换机:选择在对应的 VPC 下的在对应可用区的交换机,如果在这个可用区没有可用的交换机,那么就需要前往去创建一个新的使用。
      • 安全组名称:集群所属的安全组。这里只展示用户在 E-MapReduce 产品中创建的安全组,目前尚不支持选择在 E-MapReduce 外创建的安全组。如果需要新建安全组,可以输入新的安全组的名字完成新建。长度限制为 2-64 个字符,以大小写字母或中文开头,可使用中文、字母、数字、“-”和“_”。
    • 集群节点配置

      • 高可用:打开后,Hadoop 集群会有 2 个 master 来支持 ResourceManager 和 NameNode 的高可用。HBase 集群原来就支持高可用,只是另一个节点用其中一个 core 节点来充当,如果打开高可用,会独立使用一个 master 节点来支持高可用,更加的安全可靠。默认为非高可用模式,master节点数量为1。
      • 节点类型:
        • Master 主实例节点,主要负责 ResourceManager,NameNode 等控制进程的部署。
        • Core 核心实例节点,主要负责集群所有数据的存储,可以按照需要进行扩容。
        • Task 纯计算节点,不保存数据。调整集群的计算力使用。
      • 节点配置:不同规格的机型的选择。各个机型有各自比较适用的场景,可以根据需要选择。
      • 数据盘类型:集群的节点使用的数据盘类型,数据盘有 3 种类型,普通云盘、高效云盘和 SSD 云盘,根据不同机型和不同的 Region,会有不同。当用户选择不同的区的时候,该区支持什么盘,下拉框就会展示什么类型的盘。数据盘默认设置为随着集群的释放而释放。本地盘的计算节点,磁盘是默认选定的,无法修改。
      • 数据盘容量:目前推荐的集群容量最小是 40 G 单机,最大可以到 32 T 单节点。本地盘的容量是默认的,无法调整。
      • 实例数量:需要的总的节点的台数。一个集群至少需要 3 台实例(高可用集群需增加 1 个 Master 节点,至少 4 台)。
  3. 基础配置

    配置项说明:

    • 基础信息
      • 集群名称:集群的名字,长度限制为 1-64 个字符,仅可使用中文、字母、数字、“-”和“_”。
      • 远程登录:是否打开安全组 22 端口,默认开启。
      • 密钥对:关于密钥对的使用,请参考 SSH 密钥对
      • 登录密码:设置 master 节点的登录密码。8 - 30 个字符,且必须同时包含大写字母、小写字母、数字和特殊字符!@#$%^&*。
    • 高级设置
      • 统一 Meta 数据库:Hive 使用统一的集群外部的meta数据库,集群释放后 Meta 信息仍然存在。推荐先关闭。
      • 添加 Knox 用户:添加用户访问开源大数据软件 Web UI 的账号。
      • 权限设置:通过 RAM 角色为在集群上运行的应用程序提供调用其他阿里云服务所需的必要权限。无需调整,使用默认即可。
        • 服务角色:这个是用户将权限授予EMR服务,允许 EMR 代表用户调用其他阿里云的服务,例如 ECS 和 OSS。
        • ECS应用角色:这个是当用户的程序在 EMR 计算节点上运行的时候,可以不填写阿里云的 AccessKey 来访问相关的云服务,例如 OSS。EMR 会自动的申请一个临时 AccessKey 来授权这次访问。而这个 AccessKey 的权限控制将由这个角色来控制。
      • 引导操作(可选): 您可以在集群启动 Hadoop 前执行您自定义的脚本,详细使用说明请参见引导操作

配置清单和集群费用

页面右边会显示您所创建集群的配置清单以及集群费用。根据付费类型的不同,会展示不同的价格信息。按量付费集群显示每小时费用,包年包月显示总费用。

确认创建

当所有的信息都有效填写以后,创建按钮会亮起,确认无误后单击创建将会创建集群。

说明
  • 若是按量付费集群,集群会立刻开始创建。页面会返回概览页,就能看到在集群概览中有一个初始化中的集群。请耐心等待,集群创建会需要几分钟时间。完成之后集群的状态会切换为空闲
  • 若是包年包月集群,则会先生成订单,在支付完成订单以后集群才会开始创建。

登录Core节点

登录Core节点,请按照以下步骤操作:

  1. 在Master节点上切换到hadoop账号。
    su hadoop
  2. 免密码SSH登录到对应的Core节点。
    ssh emr-worker-1
  3. 通过sudo命令可以获得root权限。
    sudo vi /etc/hosts

创建失败

如果创建失败,在集群列表页上会显示集群创建失败,将鼠标移动到红色的感叹号上会看到失败原因。



创建失败的集群可以不用处理,对应的计算资源并没有真正的创建出来。这个集群会在停留 3 天以后自动隐藏。