E-MapReduce集群由多个不同类型的实例节点组成,包括主实例节点(Master)、核心实例节点(Core)和计算实例节点(Task)。

不同实例节点上部署的服务进程不同,负责完成的任务也不同。例如:
  • 主实例节点(Master):部署Hadoop HDFS的NameNode服务、Hadoop YARN的ResourceManager服务。
  • 核心实例节点(Core):部署DataNode服务、Hadoop YARN的NodeManager服务。
  • 计算实例节点(Task):只进行计算,部署Hadoop YARN的NodeManager服务,不部署任何HDFS相关的服务。
创建集群时,您需要确定对应的三种实例类型的ECS规格,相同实例类型的ECS在同一个实例组内。创建集群完成后,您可以通过扩容来增加实例组内的机器数量(主实例组除外)。
说明 EMR-3.2.0及后续版本支持计算实例节点(Task)。

主实例节点(Master)

主实例节点是集群服务部署管控等组件的节点,例如,Hadoop YARN的 ResourceManager。

当您需要查看集群上服务的运行情况时,您可以通过软件的Web UI来查看。当您需要快速测试或者运行作业时,您可以登录主实例节点,然后通过命令行直接提交作业。登录主节点的具体步骤请参见登录集群

核心实例节点(Core)

核心实例节点是被主实例节点管理的节点。核心实例节点上会运行Hadoop HDFS的Datanode服务,并保存所有的数据。同时,核心实例节点也会部署计算服务来执行计算任务。例如,Hadoop YARN的NodeManager服务。

为满足存储数据量或计算量扩展的需求,核心实例节点支持随时扩容,并且扩容过程中不会影响当前集群的正常运行。核心实例节点可以使用多种不同的存储介质来保存数据,详情请参见本地盘块存储

计算实例节点(Task)

计算实例节点是专门负责计算的实例节点,不会保存HDFS数据,也不会运行Hadoop HDFS的Datanode服务,是一个可选的实例类型。如果核心实例的计算能力充足,则可以不使用计算实例。当集群计算能力不足时,您可以随时通过计算实例节点快速给集群增加额外的计算能力,例如Hadoop的MapReduce任务和Spark Executors等。

计算实例节点可以随时新增和减少,并且不会影响现有集群的运行。