本文为您介绍如何通过阿里云账号登录E-MapReduce(简称EMR)控制台,快速创建一个DataLake集群并执行作业。

前提条件

  • 注册阿里云账号,并完成实名认证。具体操作请参见阿里云账号注册流程
    说明 根据阿里云ECS的规则,您在购买按量付费实例时,需要保证阿里云账户中可用余额(含现金、代金券、优惠券等)不得少于100元人民币。
  • 完成对E-MapReduce的服务账号授予默认的EMR和ECS角色权限,详情请参见角色授权

操作流程

  1. 步骤一:创建集群
    在EMR控制台,快速创建一个DataLake集群。
  2. 步骤二:创建并执行作业
    集群创建成功后,您可以创建并执行Spark类型作业。
  3. 步骤三:查看作业运行记录
    提交作业后,您可以通过YARN UI方式查看作业运行记录。
  4. (可选)步骤四:释放集群
    如果不再使用该集群,可以释放集群以节约成本。

步骤一:创建集群

  1. 进入创建集群页面。
    1. 登录EMR on ECS控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组。
      • 地域:创建的集群会在对应的地域内,一旦创建不能修改。
      • 资源组:默认显示账号全部资源。
    3. 单击上方的创建集群
  2. 在创建集群页面,完成集群相关配置。
    配置区域配置项示例描述
    软件配置地域华东1(杭州)集群节点ECS实例所在的物理位置。
    重要 集群创建后,无法更改地域,请谨慎选择。
    业务场景新版数据湖默认为新版数据湖。
    产品版本EMR-5.10.1当前最新的软件版本。
    服务高可用不开启。默认不开启。打开服务高可用开关后,EMR会把Master节点分布在不同的底层硬件上以降低故障风险。
    可选服务HADOOP-COMMON、HDFS、YARN、Hive、Spark3、TEZ、Knox和OpenLDAP。根据您的实际需求选择组件,被选中的组件会默认启动相关的服务进程。
    说明 除过集群默认的服务,还需选择Knox和OpenLDAP服务。
    硬件配置付费类型按量付费在测试场景下,建议使用按量付费,测试正常后可以释放该集群,再新建一个包年包月的生产集群正式使用。
    可用区 可用区 I集群创建后,无法直接更改可用区,请谨慎选择。
    专有网络vpc_Hangzhou/vpc-bp1f4epmkvncimpgs****选择对应区域下的专有网络。如果没有,单击创建VPC前往新建。创建专有网络完成后,单击刷新,可以选择刚创建好的VPC。
    交换机vsw_i/vsw-bp1e2f5fhaplp0g6p****选择在对应专有网络下可用区的交换机,如果在这个可用区没有可用的交换机,则需要新创建一个。
    默认安全组sg_seurity/sg-bp1ddw7sm2risw****
    重要 禁止使用ECS上创建的企业安全组。
    如果已有在使用的安全组,则可以直接选择使用。您也可以新建一个安全组。
    节点组打开Master实例下的挂载公网开关,其余使用默认值即可。您可以根据业务诉求,配置Master实例Core实例Task实例信息。详情请参见选型配置说明
    基础配置集群名称Emr-DataLake集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。
    身份凭证密码。用于远程登录集群的Master节点。
    登录密码确认密码自定义密码。请记录该配置,登录集群时您需要输入该密码。
  3. 选中服务协议,单击确认订单
    当集群状态显示为运行中时,表示集群创建成功。

步骤二:创建并执行作业

集群创建成功后,您可以在该集群创建并执行作业。

  1. 通过SSH方式连接集群,详情请参见登录集群
  2. 在命令行执行以下命令,提交并运行作业。
    本文以Spark 3.1.1版本为例,输入的命令示例如下。
    spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /usr/lib/spark-current/examples/jars/spark-examples_2.12-3.1.1.jar 10
    说明 spark-examples_2.12-3.1.1.jar为您集群中对应的JAR包名称,您可以登录集群,在/opt/apps/SPARK3/spark-current/examples/jars路径下查看。

步骤三:查看作业运行记录

提交作业后,您可以通过YARN UI方式查看作业运行记录。

  1. 开启8443端口,详情请参见管理安全组
  2. 新增用户,详情请参见管理用户
    在使用Knox账号访问YARN UI页面时,需要Knox账号的用户名和密码,
  3. EMR on ECS页面,单击目标集群所在行的集群服务
  4. 单击访问链接与端口页签。
  5. 单击YARN UI所在行的公网链接。
    使用用户管理中的用户身份信息进行登录认证,即可进入YARN UI页面。
  6. 在Hadoop控制台,单击目标作业的ID,可以查看作业运行的详情。
    Hadoop控制台

(可选)步骤四:释放集群

如果您创建的集群不再使用时,可以释放集群节约成本。确认集群释放后,系统会对集群进行如下处理:

  1. 强制终止集群上的所有作业。
  2. 终止并释放所有的ECS实例。

这个过程所需时间取决于集群的大小,集群越小释放越快。通常在几秒内可以完成释放,至多不会超过5分钟。

重要
  • 按量付费的集群可以随时释放,包年包月的集群到期后才能释放。
  • 释放集群前,请确保集群状态是初始化中、运行中或空闲。
  1. EMR on ECS页面,选择目标集群所在行的more > 释放
    您还可以单击目标集群的集群名称,然后在基础信息页面,选择右上角的集群操作 > 释放
  2. 在弹出的对话框中,单击释放

相关文档

常见问题

了解使用阿里云E-MapReduce的常见问题:常见问题