托管节点池是ACK全新推出的自动化运维型节点池,可以自动完成部分节点运维操作,如CVE自动修复、部分故障修复等,从而降低您的节点运维负担。

背景信息

节点池的相关概念,如下所示:
  • 普通节点池:为您提供管理一组同质节点的能力,同一个节点池内具有相同的节点配置,例如规格、标签(Label)、污点(Taint)。您可以自行运维普通节点池内节点。
  • 托管节点池:在普通节点池基础上,提供CVE自动修复,自动触发故障节点修复等能力,从而实现托管的自动化节点运维。
    说明
    • 托管节点池的自动化运维能力可以帮助您简化节点运维工作,部分复杂的节点故障可能仍需要人工修复。关于节点自动恢复的更多信息,请参见托管节点池节点自动恢复
    • CVE修复功能是云安全中心提供的高级功能,使用本功能前,您需要先购买云安全中心的企业版或以上版本,ACK不额外收取费用。更多信息,请参见漏洞修复
  • 替换系统盘:通过替换节点系统盘(下文简称替盘)的方式初始化节点,该节点的IaaS属性不发生改变,如节点名称、实例ID、IP等,但会删除节点系统盘上的数据,执行节点的重新初始化流程。额外挂载到该节点上的数据盘不受影响。
    注意 请勿在节点系统盘中存储持久化数据,建议保存在数据盘中。
  • 原地升级:与替盘相对应的一种升级方式,直接在原节点上更新替换所需组件。原地升级不会替换系统盘,也不会重新初始化节点,因此不会破坏原节点的数据。

适用场景

  • 只关注上层应用开发,不希望把过多的精力用于运维Worker节点。
  • 对底层节点的变更不敏感,业务Pod对迁移有较高的容忍度,更加关注业务的弹性而非不可变性。

托管节点池与普通节点池对比

对比项 节点池 托管节点池
运维能力 用户自行管理 部分运维托管于容器服务
运维窗口 无需设置运维窗口 需要设置运维窗口。托管节点池会在您设定的运维窗口内执行自动化的运维操作,如CVE修复。
扩缩容 手动 手动
弹性伸缩 可开启自动弹性伸缩 可开启自动弹性伸缩
计费方式 按量或者包年包月实例 按量或者包年包月实例
节点升级
  • 手动升级
  • 仅支持升级Kubelet版本
  • 升级方式为原地升级
  • 手动升级
  • 支持升级Kubelet版本、CVE漏洞等
  • 升级方式为替换系统盘
故障修复 手动 自动
说明 托管节点池的自动化运维能力可以帮助您简化节点运维工作,部分复杂的节点故障可能仍需要人工修复。关于节点自动恢复的更多信息,请参见托管节点池节点自动恢复
CVE修复 用户手动触发CVE修复 自动触发CVE修复
说明 CVE修复是云安全中心提供的高级功能。若需使用该功能,您需要先购买云安全中心的企业版或以上版本,ACK不额外收取费用。更多信息,请参见漏洞修复
密钥管理 同时支持密码和密钥方式 仅支持密钥方式
操作系统 支持以下操作系统:
  • CentOS
  • Alibaba Cloud Linux
  • Windows
支持以下操作系统:
  • ContainerOS
  • CentOS
  • Alibaba Cloud Linux

主要特征

  • 您可以为同一个集群创建多个托管节点池,不同节点池具有不同的配置,从而实现不同规格节点的支持。
  • 执行替盘轮转升级前会先尝试通过cordon命令将节点设置为不可调度,然后驱逐该节点上的Pod。如果超时15分钟后,Pod仍未被驱逐,容器服务将强制执行替盘操作。
  • 托管节点池会监控节点的运行状态,如果节点超过10分钟未上报节点状态,或者状态为NotReady,容器服务会通过尝试重启节点来恢复。
  • 托管节点池和普通节点池可以通过开启或关闭托管进行互相转换。
  • 如果您需要关闭托管节点池的自动运维功能,可以在控制台集群信息页面的基本信息页签中关闭维护窗口即可。具体操作,请参见查看集群信息

注意事项

  • 托管节点池通过替换系统盘的方式执行节点升级操作,该操作会删除节点系统盘上的数据。数据盘内的数据不受影响,请勿在系统盘上存储任何持久化数据。
  • 托管节点池在替盘升级前会执行节点下线与排水,因此会造成Pod的重启、长链接的中断。
  • 托管节点池会尝试重启故障节点来修复可能的故障,因此节点上的Pod会被重启。
  • CVE漏洞修复需要开通云安全中心并且配额充足。具体操作,请参见购买云安全中心
  • 建议您务必开启事件中心,否则将无法接收到托管节点池的告警事件。关于开启事件中心的具体操作,请参见事件监控