当E-MapReduce(简称EMR)集群的节点存在异常,或集群缩容下线节点时,需要在EMR集群管理页面对HDFS DataNode、YARN NodeManager、Jindo Storage Service和HBase HRegionServer服务进行下线(Decommission)操作,如果通过其他方式直接下线节点,可能会导致任务调度失败以及数据安全的问题。本文为您介绍如何进行节点下线操作。

前提条件

已在EMR上创建集群,详情请参见创建集群

使用限制

当EMR集群的节点存在异常,或集群缩容下线节点时,且您待下线的节点存在HDFS DataNode、YARN NodeManager、Jindo Storage Service或HBase HRegionServer服务,您需要进行节点下线操作。

操作步骤

注意 EMR目前支持对HDFS DataNode、YARN NodeManager、Jindo Storage Service和HBase HRegionServer服务进行节点下线操作,如果您待下线的节点存在这些服务,则请按照以下顺序进行下线操作。
  1. 进入集群管理页面。
    1. 登录阿里云E-MapReduce控制台
    2. 在顶部菜单栏处,根据实际情况选择地域和资源组
    3. 单击上方的集群管理页签。
    4. 集群管理页面,单击目标集群的集群ID。
  2. 下线HDFS DataNode。
    1. 集群管理页面的服务列表区域,选择HDFS服务所在行的more > Decommission DataNode
      下线DataNode
    2. 执行集群操作对话框中,选择指定机器,输入执行原因,单击确定
      注意 确保您待下线的节点存在HDFS DataNode。
    3. 单击右上角的查看操作历史,查看Decommission进度。
      查看进度
    4. 通过HDFS UI查看节点状态。
      访问开源组件Web UI的具体操作,请参见访问链接与端口下线HDFS节点
  3. 停止YARN NodeManager。
    1. 在左侧导航栏中,选择集群服务 > YARN
    2. 组件列表区域,单击NodeManager组件操作列的停止
    3. 执行集群操作对话框中,选择指定机器,输入执行原因,单击确定
      注意 确保您待下线的节点存在YARN NodeManager。
    4. 确认对话框中,单击确定
  4. 下线Jindo Storage Service。
    1. 集群管理页面的服务列表区域,选择SmartData服务所在行的more > Decommission Jindo Storage Service
      下线SmartData
    2. 执行集群操作对话框中,选择指定机器,输入执行原因,单击确定
      注意 确保您待下线的节点存在Jindo Storage Service。
    3. 确认对话框中,单击确定
    4. 单击右上角的查看操作历史,查看Decommission进度。
  5. 下线HBase HRegionServer。
    1. 集群管理页面的服务列表区域,选择HBase服务所在行的more > Decommission HRegionServer
    2. 执行集群操作对话框中,选择指定机器,输入执行原因,单击确定
      注意 确保您待下线的节点存在HBase HRegionServer。
    3. 确认对话框中,单击确定
    4. 单击右上角的查看操作历史,查看Decommission进度。