在阿里云EMR体系中,Gateway实例可以作为一个独立的作业提交点,关联到已有的集群。本文为您介绍如何通过已有的EMR集群创建Gateway实例和节点组并提交作业。
创建Gateway实例
创建Gateway实例后,可以将DataLake等集群的作业提交到Gateway实例,而不是直接在关联的集群的Master或Core节点上提交,这样可以避免占用关联集群的资源,提高Master或Core节点的稳定性。
每一个Gateway实例或Gateway节点组均支持独立的环境配置。例如,在多个部门共用一个集群的场景下,您可以为这个集群创建多个Gateway实例或Gateway节点组,以满足不同部门的业务需求。创建Gateway实例和Gateway节点组的具体操作如下所示。
集群类型 | 详情 | |
Hadoop | ||
DataLake、DataFlow | EMR-5.10.1及以上版本。 | 支持增加Gateway类型的节点组,详情请参见管理节点组。 |
EMR-5.10.1以下版本。 | ||
OLAP |
操作步骤
使用SSH方式连接到Gateway实例。详情请参见登录集群。
使用SSH连接到节点后,在命令行执行以下命令,提交并运行作业。本文以Spark 3.1.1版本为例,输入的命令示例如下。
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /opt/apps/SPARK3/spark-current/examples/jars/spark-examples_2.12-3.1.1.jar 10
说明spark-examples_2.12-3.1.1.jar
为您集群中对应的JAR包名称,您可以登录集群,在/opt/apps/SPARK3/spark-current/examples/jars
路径下查看。查看作业运行记录。提交作业后,您可以通过YARN UI方式查看作业运行记录。以下为您简单说明。
开启8443端口,详情请参见管理安全组。
新增用户,详情请参见OpenLDAP 用户管理。
在使用Knox账号访问YARN UI页面时,需要Knox账号的用户名和密码。
在EMR on ECS页面,单击目标集群所在行的集群服务。
单击访问链接与端口页签。
单击YARN UI所在行的公网链接。
使用用户管理中的用户身份信息进行登录认证,即可进入YARN UI页面。
在All Applications页面,单击目标作业的ID,可以查看作业运行的详情。