E-MapReduce快速入门

本文为您介绍如何通过阿里云账号登录E-MapReduce(简称EMR)控制台,快速创建一个DataLake集群并执行作业。

前提条件

  • 注册阿里云账号,并完成实名认证。具体操作请参见账号注册(PC端)

    说明

    根据阿里云ECS的规则,您在购买按量付费实例时,需要保证阿里云账户中可用余额(含现金、代金券、优惠券等)不得少于100元人民币。

  • 完成对E-MapReduce的服务账号授予默认的EMR和ECS角色权限,详情请参见阿里云账号角色授权

注意事项

代码的运行环境由所属用户负责管理和配置。

操作流程

  1. 步骤一:创建集群

    在EMR控制台,快速创建一个DataLake集群。

  2. 步骤二:创建并执行作业

    集群创建成功后,您可以创建并执行Spark类型的作业。

  3. 步骤三:查看作业运行记录

    提交作业后,您可以通过YARN UI方式查看作业运行记录。

  4. (可选)步骤四:释放集群

    如果不再使用该集群,可以释放集群以节约成本。

步骤一:创建集群

  1. 进入创建集群页面。

    1. 登录EMR on ECS控制台

    2. 在顶部菜单栏处,根据实际情况选择地域和资源组。

      • 地域:创建的集群会在对应的地域内,一旦创建不能修改。

      • 资源组:默认显示账号全部资源。

    3. 单击上方的创建集群

  2. 在创建集群页面,完成集群相关配置。

    配置区域

    配置项

    示例

    描述

    软件配置

    地域

    华东1(杭州)

    集群节点ECS实例所在的物理位置。

    重要

    集群创建后,无法更改地域,请谨慎选择。

    业务场景

    数据湖

    选择适合的业务场景,创建集群时阿里云EMR会自动为您配置默认的组件、服务和资源,以简化集群配置,并提供符合特定业务场景需求的集群环境。

    产品版本

    EMR-5.14.0

    当前最新的软件版本。

    服务高可用

    不开启

    默认不开启。打开服务高可用开关后,EMR会把Master节点分布在不同的底层硬件上以降低故障风险。

    可选服务

    HADOOP-COMMON、 OSS-HDFS、YARN、Hive、Spark3、Tez、Knox和OpenLDAP。

    根据您的实际需求选择组件,被选中的组件会默认启动相关的服务进程。

    说明

    除过集群默认的服务,还需选择Knox和OpenLDAP服务。

    允许采集服务运行日志

    开启

    支持一键开启或关闭所有服务的日志采集。默认开启,将收集您的服务运行日志,这些日志仅供集群诊断使用。

    集群创建后,您可以在基础信息页面,修改服务运行日志收集状态

    重要

    关闭日志采集后,EMR的健康检查和技术支持将受到限制,但其他功能仍可正常使用。如何关闭及影响详情,请参见如何停止采集服务日志?

    元数据

    DLF统一元数据

    表示元数据存储在数据湖构建DLF中。

    系统会为您选择默认的DLF数据目录,如果您不同集群期望使用不同的数据目录,可以单击创建数据目录

    说明

    选择该方式时,需要开通阿里云数据湖构建服务。

    集群存储根路径

    1366993922******

    当您在可选服务区域选择了OSS-HDFS服务时,需要配置该参数,如果选择的是HDFS服务,则无需配置该参数。

    说明
    • 在选择使用OSS-HDFS服务之前,请确保您选择的地域支持该服务。否则,您可以尝试更换地域或使用HDFS服务替代OSS-HDFS服务。OSS-HDFS服务目前支持的地域信息,请参见开通并授权访问OSS-HDFS服务

    • EMR-5.12.1及后续版本,EMR-3.46.1及后续版本的DataLake、DataFlow、DataServing和Custom集群,支持选择OSS-HDFS服务。

    硬件配置

    付费类型

    按量付费

    在测试场景下,建议使用按量付费,测试正常后可以释放该集群,再新建一个包年包月的生产集群正式使用。

    可用区

    可用区 I

    集群创建后,无法直接更改可用区,请谨慎选择。

    专有网络

    vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****

    选择对应区域下的专有网络。如果没有,单击创建VPC前往新建。创建专有网络完成后,单击刷新,可以选择刚创建好的VPC。

    交换机

    vsw_i/vsw-bp1e2f5fhaplp0g6p****

    选择在对应专有网络下可用区的交换机,如果在这个可用区没有可用的交换机,则需要新创建一个。

    默认安全组

    sg_seurity/sg-bp1ddw7sm2risw****

    重要

    禁止使用ECS上创建的企业安全组。

    如果已有在使用的安全组,则可以直接选择使用。您也可以新建一个安全组。

    节点组

    打开Master节点组下的挂载公网开关,其余使用默认值即可。

    您可以根据业务诉求,配置Master节点组、Core节点组或Task节点组信息。详情请参见选型配置说明

    基础配置

    集群名称

    Emr-DataLake

    集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。

    身份凭证

    密码。

    用于远程登录集群的Master节点。

    登录密码确认密码

    自定义密码。

    请记录该配置,登录集群时您需要输入该密码。

  3. 选中服务协议,单击确认订单

    在EMR on ECS页面,当集群状态显示为运行中时,表示集群创建成功。更多集群参数信息,请参见创建集群

步骤二:创建并执行作业

集群创建成功后,您可以在该集群创建并执行作业。

  1. 通过SSH方式连接集群,详情请参见登录集群

  2. 在命令行执行以下命令,提交并运行作业。

    本文以Spark 3.1.1版本为例,输入的命令示例如下。

    spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /opt/apps/SPARK3/spark-current/examples/jars/spark-examples_2.12-3.1.1.jar 10
    说明

    spark-examples_2.12-3.1.1.jar为您集群中对应的JAR包名称,您可以登录集群,在/opt/apps/SPARK3/spark-current/examples/jars路径下查看。

步骤三:查看作业运行记录

提交作业后,您可以通过YARN UI方式查看作业运行记录。

  1. 开启8443端口,详情请参见管理安全组

  2. 新增用户,详情请参见管理用户

    在使用Knox账号访问YARN UI页面时,需要Knox账号的用户名和密码。

  3. EMR on ECS页面,单击目标集群所在行的集群服务

  4. 单击访问链接与端口页签。

  5. 单击YARN UI所在行的公网链接。

    使用用户管理中的用户身份信息进行登录认证,即可进入YARN UI页面。

  6. All Applications页面,单击目标作业的ID,可以查看作业运行的详情。

    Hadoop控制台

(可选)步骤四:释放集群

如果您创建的集群不再使用时,可以释放集群节约成本。确认集群释放后,系统会对集群进行如下处理:

  1. 强制终止集群上的所有作业。

  2. 终止并释放所有的ECS实例。

这个过程所需时间取决于集群的大小,集群越小释放越快。通常在几秒内可以完成释放,至多不会超过5分钟。

重要
  • 按量付费的集群可以随时释放,包年包月的集群到期后才能释放。

  • 释放集群前,请确保集群状态是初始化中、运行中或空闲。

  1. EMR on ECS页面,选择目标集群所在行的more > 释放

    您还可以单击目标集群的集群名称,然后在基础信息页面,选择右上角的全部操作 > 释放

  2. 在弹出的对话框中,单击确定

相关文档

常见问题

了解使用阿里云E-MapReduce的常见问题:常见问题