本文介绍当集群中的节点,尤其是MASTER节点的CPU或内存不够时,如何升级节点的配置。

前提条件

  • 只有E-MapReduce包年包月集群才支持升级配置。
    说明 如果当前是HA集群,只单独重启一台Master,另外一台Master会当做Active的节点来保证服务正常运行。
  • 本地盘实例(如d1和i2实例族)不能升级配置,只能增加节点个数。
  • 非本地盘实例只支持升级配置,不支持降低配置。

节点配置升级引导

  1. 进入配置升级。
    1. 已通过主账号登录阿里云E-MapReduce控制台
    2. 在顶部菜单栏处,根据实际情况选择地域(Region)和资源组
    3. 单击上方的集群管理页签。
    4. 集群管理页面,单击相应集群所在行的详情
    5. 在集群基础信息页面,单击资源变配 > 配置升级
  2. 修改需要升级的节点配置。
    1. 单击确定,等待一段时间生成订单。
    2. 支付订单。
  3. 返回到集群管理页面,刷新页面确认节点信息已经变为要升配的目标规格,例如,CPU:4核,内存:16 GB。
    在机器组信息展示版块会显示如下提示。升级配置
  4. 单击升级配置已完成,重启机器组生效
    确认重启
    • 滚动重启:
      • 勾选:表示一个ECS实例重启完成且该实例上的大数据服务全部恢复后再启动下一个ECS实例。每个节点重启耗时约五分钟。
      • 不勾选:表示同时重启所有ECS实例。
    • 只重启变配节点:
      • 变配节点,指已经完成过扩容磁盘或者升级配置操作的节点(如:CORE和MASTER等)。
      • 勾选:表示只重启变配节点,未变配的节点不会被重启。例如:只是对CORE组的节点做了升级配置,但未对MASTER升级配置操作,那么只会重启CORE组下的ECS实例,不会重启MASTER组下的ECS实例。
      • 不勾选:表示所有节点都将重启,即集群下的所有机器都会被重启。
    注意 因为重启集群会重启集群的ECS实例,所以重启中的ECS实例上的大数据服务不可用,请务必确保不影响业务的情况下操作。
  5. 单击确定
  6. 重启过程中,对应的机器组(例如CORE)提示机器组重启中
    待提示信息消失后,升级配置全部完成并生效,可以登录集群查验。
    说明
    • 如果只是升级了CPU而没有升级内存则忽略本步骤,升级配置结束。
    • 如果只是升级了内存,需要修改集群服务配置,使得YARN可以使用新增的资源。
    • 如果CPU和内存都升级了,需要修改以上两个配置,详情请参见修改配置

修改配置

  1. 集群服务页面,单击YARN
  2. 修改CPU配置。

    在服务页面,单击配置,找到配置项 yarn.nodemanager.resource.cpu-vcores,如果为计算密集型,建议调整为ECS vCPU的1:1比例;如果为混合型,可以调到1:2的比例内。

    例如,计算节点为32 vCore,且为计算密集型,则yarn.nodemanager.resource.cpu-vcores调整为32;如果计算节点为32 vCore,且为混合型,则yarn.nodemanager.resource.cpu-vcores可以调整到32~64之间。

  3. 修改内存配置。
    在配置页面,找到配置项 yarn.nodemanager.resource.memory-mb。把配置项的值修改为机器内存*0.8,单位为MB。例如,当前新的配置下,内存是32 GB,则需将yarn.nodemanager.resource.memory-mb配置为26214
  4. 单击页面右上角的保存,确认配置项。
    确认修改对话框中,输入执行原因,单击确定
  5. 单击页面右上角的操作,在下拉框中选择配置 All Components
    1. 执行集群操作对话框中,设置相关参数,单击确定
    2. 确认对话框中,单击确定
  6. 单击查看操作历史,待CONFIGURE YARN的任务状态为成功之后继续操作。
  7. 单击页面右上角的操作,在下拉框中选择重启 All Components
    1. 执行集群操作对话框中,设置相关参数,单击确定
    2. 确认对话框中,单击确定
    单击查看操作历史,待Restart YARN的任务状态为成功之后,新增的资源即可被YARN使用。