全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网
E-MapReduce

创建集群

更新时间:2017-08-28 11:39:59

进入创建集群页面

  1. 登录阿里云 E-MapReduce 控制台集群列表

  2. 完成 RAM 授权,操作步骤请参见角色授权

  3. 在上方选择所在的地域(Region),所创建集群将会在对应的地域内,一旦创建后不能修改。

  4. 单击右上方的创建集群按钮,进行创建。

创建集群流程

注意:集群除了名字以外,一旦创建完成就无法被修改。所以在创建时请仔细确认需要的配置。

要创建集群,您需要继续完成以下 3 个步骤:

  • 软件配置
  • 硬件配置
  • 基础配置

步骤1:软件配置

配置项说明:

  • 产品版本:E-MapReduce 产品的主要版本,代表了一整套的开源软件环境,它会定时的根据内部组成软件的升级进行升级。一般如果 Hadoop 相关的软件有进行升级,E-MapReduce 也会升级,这个时候就会升级这个主版本号。低版本的集群无法自动的升级到一个高版本上。

  • 集群类型:目前的EMR提供了

    • Hadoop标准的 Hadoop 集群,包含了大部分的 Hadoop 相关的组件,具体的组件信息可以在选择界面的列表中查看。
    • Kafka独立的 Kafka 集群,提供消息服务。
  • 包含配置:展示选择的集群类型下的所有的软件组件列表,包括名称和版本号。根据需求,您可选择不同的组件,被选中的组件会默认启动相关的服务进程。

    注意:您选择的组件越多,对您机器的配置要求就越高,否则很可能无法有足够的资源来运行这些服务。

  • 安全模式:是否开启集群的 Kerberos 认证功能。

  • 软件配置(可选):可以对集群中的基础软件例如 Hadoop、Spark、Hive 等进行配置,详细使用方法请参见软件配置

步骤2:硬件配置

配置项说明:

  • 付费配置

    • 付费类型包年包月是一次性支付一个长期的费用,价格相对来说会比较便宜,特别是包三年的时候折扣会很大。按量付费是根据实际使用的小时数来支付费用,每个小时计一次费用。适合与短期的测试或者是灵活的动态任务,价格相对来说会贵一些。

    • 购买时长:您可选择购买 1 个月、2 个月、3 个月、6 个月、9 个月、1 年、2 年、3 年。

  • 集群网络配置

    • 集群可用区:选择集群所在的可用区(Zone),不同的可用区会有不同的机型和磁盘。在每个 Region 内存在多个可用区。可用区在物理上属于不同的区域,一般来说如果需要较好的网络,推荐您选择相同的可用区,但是这样也会使创建集群失败的风险增大,因为单个可用区的存库不一定那么充足。如果需要大量的机器可以工单咨询我们。

    • 网络类型:可以选择经典网络和专有网络(VPC),专有网络需要额外提供所属 VPC 以及子网(交换机),若还未创建,可前往VPC控制台进行创建。E-MapReduce 专有网络详细使用说明查看专有网络

      注意:经典网络与专有网络不互通,购买后不能更换网络类型。

    • ECS 实例系列:不同的可用区有不同的实例系列,系列 I、II、III等。尽量使用最新的系列。

    • VPC:选择在该地域的VPC。

    • 交换机:选择在对应的VPC下的在对应可用区的交换机,如果在这个可用区没有可用的交换机,那么就需要前往去创建一个新的使用。

    • 新建安全组:一般用户初次来到这里还没有安全组,打开“新建安全组”开关,在“安全组名称”里面填上新的安全组的名字。

    • 选择安全组:集群所属的安全组。这里只展示用户在 E-MapReduce 产品中创建的安全组,目前尚不支持选择在 E-MapReduce 外创建的安全组。如果需要新建安全组,可以选择“新建安全组”选项,同时输入安全组的名字完成新建。长度限制为 2-64 个字符,以大小写字母或中文开头,可使用中文、字母、数字、“-”和“_”。

  • 集群节点配置

    • 高可用集群:打开后,Hadoop 集群会有 2 个 master 来支持 Resource Manager 和 Name Node 的高可用。HBase 集群原来就支持高可用,只是另一个节点用其中一个 core 节点来充当,如果打开高可用,会独立使用一个 master 节点来支持高可用,更加的安全可靠。默认为非高可用模式,master节点数量为1。

    • 节点类型

      • Master主实例节点,主要负责Resource Manager,Name node等控制进程的部署
      • Core核心实例节点,主要负责集群所有数据的存储,可以按照需要进行扩容
      • Task纯计算节点,不保存数据。调整集群的计算力使用。
    • 节点配置:不同规格的机型的选择。各个机型有各自比较适用的场景,可以根据需要选择。

    • 数据盘类型:集群的节点使用的数据盘类型,数据盘有 3 种类型,普通云盘、高效云盘和 SSD 云盘,根据不同机型和不同的 Region,会有不同。当用户选择不同的区的时候,该区支持什么盘,下拉框就会展示什么类型的盘。数据盘默认设置为随着集群的释放而释放。本地盘的计算节点,磁盘是默认选定的,无法修改。

    • 数据盘容量:目前推荐的集群容量最小是 40G 单机,最大可以到32T单节点。本地盘的容量是默认的,无法调整。

    • 实例数量:需要的总的节点的台数。一个集群至少需要 3 台实例(高可用集群需增加 1 个 Master 节点,至少 4 台)。按量集群目前最大台数是 50 台,如果需要超过 50 台,请工单联系我们。包月集群最大100台,超过50台请工单联系我们。

步骤3:基础配置

配置项说明:

  • 基本信息

    • 集群名称:集群的名字,长度限制为 1-64 个字符,仅可使用中文、字母、数字、“-”和“_”。
  • 运行日志

    • 运行日志:是否保存作业的日志,日志保存默认是打开的。开启后会需要您选择用来保存日志的 OSS 目录位置,会将您的作业的日志保存到该 OSS 存储目录上。当然,您要使用这个功能必须先开通 OSS,同时上传的文件会按照使用的量来计算用户的费用。强烈建议您打开 OSS 日志保存功能,这会对您的作业调试和错误排查有极大的帮助。

    • 日志路径:保存日志的 OSS 路径。

    • 统一Meta数据库:将你所有的 Hive 的元数据都保存到集群外部的数据库上,由EMR产品提供。推荐当集群使用 OSS 作为主要的存储的时候,使用这个功能。

  • 权限设置

    • 服务角色:这个是用户将权限授予EMR服务,允许 EMR 代表用户调用其他阿里云的服务,例如 ECS 和 OSS
    • ECS应用角色:这个是当用户的程序在 EMR 计算节点上运行的时候,可以不填写阿里云的 AK 来访问相关的云服务,比如OSS。EMR 会自动的申请一个临时 AK 来授权这次访问。而这个 AK 的权限控制将由这个角色来控制。
  • 登录设置

    • 登录密码:设置 master 节点的登录密码。8 - 30 个字符,且必须同时包含大写字母、小写字母、数字和特殊字符!@#$%^&*
  • 引导操作(可选): 您可以在集群启动 Hadoop 前执行您自定义的脚本,详细使用说明请参见引导操作

配置清单和集群费用

页面右边会显示您所创建集群的配置清单以及集群费用。根据付费类型的不同,会展示不同的价格信息。按量付费集群显示每小时费用,包年包月显示总费用。

确认创建

当所有的信息都有效填写以后,“创建”按钮会亮起,确认无误后单击创建将会创建集群。

注意:

  • 若是按量付费集群,集群会立刻开始创建。页面会返回集群列表页,就能看到在列表中有一个“集群创建中”的集群。请耐心等待,集群创建会需要几分钟时间。完成之后集群的状态会切换为“集群空闲”。

  • 若是包年包月集群,则会先生成订单,在支付完成订单以后集群才会开始创建。

创建失败

如果创建失败,在集群列表页上会显示“集群创建失败”,将鼠标移动到红色的感叹号上会看到失败原因,如下图所示。

创建失败

创建失败的集群可以不用处理,对应的计算资源并没有真正的创建出来。这个集群会在停留3天以后自动隐藏。

本文导读目录