在Hadoop中,集群Master节点是负责管理整个集群的节点,包括任务的提交、监控和结束。当您想要在Hadoop集群上执行一个作业时,需要通过Master节点来提交这个作业。
前提条件
已在EMR on ECS创建集群,详情请参见创建集群。
确保本地服务器与集群主节点网络连通。您可以在创建集群时打开挂载公网开关,或者在集群创建好之后在ECS控制台上为主节点挂载公网,为主节点ECS实例分配固定公网IP或EIP,详情请参见弹性公网IP。
集群安全组已开放22端口。
操作步骤
使用SSH方式登录集群Master节点。详情请参见登录集群。
使用ssh连接到节点后,在命令行执行以下命令,提交并运行作业。本文以Spark 3.1.1版本为例,输入的命令示例如下。
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client --driver-memory 512m --num-executors 1 --executor-memory 1g --executor-cores 2 /opt/apps/SPARK3/spark-current/examples/jars/spark-examples_2.12-3.1.1.jar 10
spark-examples_2.12-3.1.1.jar
为您集群中对应的JAR包名称,您可以登录集群,在/opt/apps/SPARK3/spark-current/examples/jars
路径下查看。查看作业运行记录。提交作业后,您可以通过YARN UI方式查看作业运行记录。以下为您简单说明。
该文章对您有帮助吗?
- 本页导读 (1)
- 前提条件
- 操作步骤