本文为您介绍如何在E-MapReduce(简称EMR)控制台上创建EMR Studio集群。

前提条件

已完成RAM授权,详细信息请参见角色授权
说明 首次创建EMR Studio集群时会弹出授权该角色的窗口,请使用阿里云账号对系统角色AliyunECSInstanceForEMRStudioRole进行授权。

使用限制

EMR Studio集群仅支持绑定到同一个VPC内的EMR集群,不支持跨VPC。

注意事项

截止2022年10月14日,EMR Studio已正式停止运维更新,也不提供新建该类型集群的入口,但已有集群的功能使用不受影响。

操作步骤

  1. 进入创建集群页面。
    1. 登录阿里云E-MapReduce控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组。
      • 地域:创建的集群将会在对应的地域内,一旦创建不能修改。
      • 资源组:默认显示账号全部资源。
    3. 单击创建集群,进行创建。
  2. 在创建集群页面,完成集群相关配置。
    创建集群时,您需要对集群进行软件配置、硬件配置和基础配置。
    重要 集群创建完成后,除了集群名称以外,其他配置均无法修改,所以在创建时请仔细确认各项配置。
    1. 软件配置。
      配置项 描述
      集群类型 选择EMR Studio。
      产品版本 默认最新的软件版本。
      必选服务 默认的服务组件,后期可以在管理页面中启停服务。
      高级设置 软件自定义配置:可指定JSON文件对集群中的基础软件(例如Hadoop、Spark和Hive等)进行配置,详细使用方法请参见软件配置。默认不开启。
    2. 硬件配置。
      区域 配置项 描述
      付费类型 付费类型 默认包年包月。当前支持的付费类型如下:
      • 按量付费:一种后付费模式,即先使用再付费。按量付费是根据实际使用的小时数来支付费用,每小时计费一次,适合短期的测试任务或是灵活的动态任务。
      • 包年包月:一种预付费模式,即先付费再使用。
      网络配置 可用区 可用区为在同一地域下的不同物理区域,可用区之间内网互通。通常使用默认的可用区即可。
      网络类型 默认专有网络。
      VPC 选择在该地域的VPC。如果没有可用的VPC,单击创建VPC/子网(交换机)前往新建。
      重要 因为EMR Studio集群仅支持关联同一个VPC内的EMR计算集群,所以创建EMR Studio集群时需要选择与EMR计算集群相同的VPC。
      交换机 选择在对应VPC下可用区的交换机,如果在这个可用区没有可用的交换机,则需要新创建一个。
      安全组名称 选择已有的安全组。安全组详情请参见安全组概述

      您也可以单击新建安全组,然后直接输入安全组名称来新建一个安全组。

      重要 禁止使用ECS上创建的企业安全组。
      实例 选型配置 EMR Studio最小模型为1个Master,Core数量可以为0。Core数量会影响Airflow的运行模式,不影响其他组件。如果Core数量为0,则Airflow的运行模式就是Local模式(LocalExecutor),如果Core数量大于0,则Airflow的运行模式是分布式模式(CeleroyExecutor)。建议您根据业务创建选择集群规模:
      • Master实例:主要负责Master组件的部署,推荐机型ecs.c7.2xlarge。您可以根据实际负载调整实例规格。
        • 系统盘配置:根据需要选择SSD云盘、ESSD云盘或者高效云盘。
        • 系统盘大小:根据需要调整磁盘容量,推荐至少200 GB。
        • 数据盘配置:根据需要选择SSD云盘、ESSD云盘或者高效云盘。
        • 数据盘大小:根据需要调整磁盘容量,推荐至少300 GB。
        • Master数量:默认1台。
      • Core实例:主要负责集群所有数据的存储,推荐机型ecs.c7.2xlarge。您可以根据实际负载调整实例规格。
        • 系统盘配置:根据需要选择SSD云盘、ESSD云盘或者高效云盘。
        • 系统盘大小:根据需要调整磁盘容量,推荐至少200 GB。
        • 数据盘配置:根据需要选择SSD云盘、ESSD云盘或者高效云盘。
        • 数据盘大小:根据需要调整磁盘容量,推荐至少300 GB。
        • Core数量:默认1台,可以根据业务场景调整。
          • 仅使用EMR Studio Notebook组件,无调度场景,Core数量可以为0。
          • 需要使用Airflow进行调度,Core数量至少为1。
    3. 基础配置。
      区域 配置项 描述
      基础信息 集群名称 集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。
      元数据选择 配置Airflow元数据。
      • 集群内置MySQL:表示元数据存储在集群本地环境的MySQL数据库中。
      • 使用自建RDS:表示使用自建的阿里云RDS作为元数据库,更多信息请参见配置独立RDS MySQL
      数据开发存储 EMR Studio集群的数据都会存在OSS上,即使您的EMR Studio集群销毁了,您可以通过重新创建集群来恢复原有集群的状态(包括您的Notebook以及Airflow调度的作业),并且代码和配置都不会丢失。
      EMR Studio集群会在您所选OSS路径下创建logsdagsnotebook三个文件夹:
      • logs:在/airflow/目录下,用于存储Airflow调度的日志信息。
      • dags:在/airflow/目录下,用于存储Airflow DAG脚本。
      • notebook:在/zeppelin/目录下,用于存储Notebook信息。
      挂载公网 集群是否挂载弹性公网IP地址,建议在创建时开启挂载公网。未开启或是关闭挂载公网,将无法使用EMR控制台访问链接与端口功能查看开源组件Web UI。
      说明 如果创建集群时,未开启挂载公网,您可以参见弹性公网IP中申请EIP的内容处理,或技术支持处理。
      密钥对 关于密钥对的使用详情,请参见SSH密钥对
      密码 设置Master节点的登录密码,密码规则:8~30个字符,且必须同时包含大写字母、小写字母、数字和特殊字符。

      特殊字符包括:感叹号(!)、at(@)、井号(#)、美元符号($)、百分号(%)、乘方(^)、and(&)和星号(*)。

      高级设置 添加用户 添加访问开源大数据软件Web UI的账号。
      权限设置 通过RAM角色为在集群上运行的应用程序提供调用其他阿里云服务所需的必要权限,无需调整,使用默认即可。
      • 服务角色:用户将权限授予EMR服务,允许EMR代表用户调用其他阿里云的服务,例如ECS和OSS。
      • ECS应用角色:当用户的程序在EMR计算节点上运行时,可不填写阿里云AccessKey来访问相关的云服务(例如OSS),EMR会自动申请一个临时AccessKey来授权本次访问。ECS应用角色用于控制这个AccessKey的权限。
      数据盘加密 默认不开启。
      打开加密开关,即启动对集群节点ECS中所有属性为云盘的数据盘进行加密的功能。默认使用服务密钥为用户的数据进行加密,也支持使用用户自选密钥为用户的数据进行加密。
      重要 不支持加密本地盘。
      引导操作 可选配置,您可以在集群启动Hadoop前执行您自定义的脚本,详情请参见引导操作
      标签 可选配置,您可以在创建集群时绑定标签,也可以在集群创建完成后,在集群详情页绑定标签,详情请参见设置标签
      资源组 可选配置。详情请参见使用资源组
      说明 页面右边会显示您所创建集群的配置清单以及集群费用。根据不同的付费类型,展示不同的价格信息。
  3. 当所有的信息确认正确有效后,选中服务条款,单击创建
    重要
    • 按量付费集群:立刻开始创建。

      集群创建完成后,集群的状态变为空闲

    • 包年包月集群:先生成订单,在支付完成订单以后集群才会开始创建。