通过集群Gateway节点提交作业

在阿里云EMR体系中,Gateway实例可以作为一个独立的作业提交点,关联到已有的集群。本文为您介绍如何通过已有的EMR集群创建Gateway实例和节点组并提交作业。

创建Gateway实例

创建Gateway实例后,可以将DataLake等集群的作业提交到Gateway实例,而不是直接在关联的集群的MasterCore节点上提交,这样可以避免占用关联集群的资源,提高MasterCore节点的稳定性。

每一个Gateway实例或Gateway节点组均支持独立的环境配置。例如,在多个部门共用一个集群的场景下,您可以为这个集群创建多个Gateway实例或Gateway节点组,以满足不同部门的业务需求。创建Gateway实例和Gateway节点组的具体操作如下所示。

集群类型

详情

Hadoop

创建Gateway集群

DataLake、DataFlow

EMR-5.10.1及以上版本。

支持增加Gateway类型的节点组,详情请参见管理节点组

EMR-5.10.1以下版本。

使用EMR-CLI自定义部署Gateway环境

OLAP

操作步骤

  1. 使用SSH方式连接到Gateway实例。详情请参见登录集群

  2. 使用SSH连接到节点后,在命令行执行以下命令,提交并运行作业。本文以Spark 3.1.1版本为例,输入的命令示例如下。

    spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /opt/apps/SPARK3/spark-current/examples/jars/spark-examples_2.12-3.1.1.jar 10
    说明

    spark-examples_2.12-3.1.1.jar为您集群中对应的JAR包名称,您可以登录集群,在/opt/apps/SPARK3/spark-current/examples/jars路径下查看。

  3. 查看作业运行记录。提交作业后,您可以通过YARN UI方式查看作业运行记录。以下为您简单说明。

    1. 开启8443端口,详情请参见管理安全组

    2. 新增用户,详情请参见OpenLDAP 用户管理

      在使用Knox账号访问YARN UI页面时,需要Knox账号的用户名和密码。

    3. EMR on ECS页面,单击目标集群所在行的集群服务

    4. 单击访问链接与端口页签。

    5. 单击YARN UI所在行的公网链接。

      使用用户管理中的用户身份信息进行登录认证,即可进入YARN UI页面。

    6. All Applications页面,单击目标作业的ID,可以查看作业运行的详情。

      Hadoop控制台