智能托管节点池

更新时间:
复制为 MD 格式

智能托管节点池是ACK推出的一种全托管、免运维的节点管理模式,支持在 ACK托管集群Pro中使用。启用后,可依据工作负载需求,自动完成节点的动态扩缩容,并提供操作系统升级、安全补丁修复和故障自愈等运维能力,无需手动创建和维护节点。

功能特性

  • 全生命周期自动化运维:自动接管节点从创建、运行到回收的整个生命周期。包括节点镜像轮转、异常节点自动替换以及 OS CVE 漏洞的自动修复等。

  • 即时弹性资源供给:内置节点即时弹性能力,根据 Kubernetes 工作负载的资源请求,毫秒级触发节点扩容或缩容。

  • 企业级安全防护:内置优化的基础软件栈,节点采用 ContainerOS,其不可变根文件系统可强化安全防护。

  • 按量计费:根据资源实际使用量计费,帮助企业减少空闲资源浪费,实现更优的资源成本控制。

image

节点自动化运维

自动接管节点从创建、运行到回收的整个生命周期,持续承担操作系统升级、组件维护和安全漏洞修复等运维职责,无需手动规划节点配置。

  • 故障修复:自动检测节点异常并触发修复流程,支持配置是否允许通过重启节点完成故障恢复。

  • 操作系统 CVE 修复:支持自动修复操作系统漏洞,覆盖高危、中危和低危等级漏洞。

  • 操作系统版本升级:自动更新节点池操作系统镜像,并通过节点轮转完成升级。

  • ECS 系统事件自动响应:支持自动识别并响应 ECS系统事件,提升节点运行稳定性和可用性。

确定性资源弹性供给

内置节点即时弹性能力,可根据工作负载变化自动完成节点扩缩容,无需提前规划容量。根据资源实际使用量计费,可减少空闲资源浪费,实现更优的资源成本控制。

  • 弹性响应更快:通过事件驱动的机制来触发扩缩行为,结合阿里云的ContainerOS能力进行弹性加速,伸缩速度大约为45±10s。

    基于事件驱动,使用响应式模型,弹性灵敏度为1~3s。

  • 资源交付更稳定:可自动选择合适的实例规格进行扩容;在目标库存不足时,可自动补偿符合条件的其他规格,资源交付成功率可达 99%。同时提供库存预警能力,可提前识别规格组合的潜在风险。

  • 调度效率更优:支持根据Pod选择最优装箱策略(Bin Packing)预绑定(PreBind)策略(自定义特性),将调度碎片率优化30%。

企业级安全防护

内置采用 ContainerOS 作为节点操作系统。ContainerOS 是专为容器场景设计的操作系统,完全兼容 Kubernetes 生态,兼具快速启动、安全加固和一致性升级等优势。

  • 节点极速扩容

    • 镜像精简:仅保留 Kubernetes Pod 运行所需的软件包和系统服务,通过系统级整合优化,显著缩短节点启动时间。

    • GPU 场景优化:使用 GPU 实例时,系统内置 ContainerOS GPU 优化版,镜像中预装 NVIDIA 驱动及必要运行环境,减少节点启动后的安装和配置步骤。

  • 安全加固

    • 只读根文件系统:根文件系统默认为只读,仅 /etc/var 目录可写,既满足基本系统配置需求,也符合云原生场景下的不可变基础设施原则,可有效防止逃逸容器篡改主机文件系统。

    • 最小化系统能力暴露:默认不提供 Python 运行环境,也不直接开放 SSH 登录,避免用户直接登录到系统中进行无法追溯的操作。对于非常规运维场景,提供专用运维容器作为补充。

  • 原子升级

    • 镜像级更新与回滚:遵循不可变基础设施理念,不提供 yum 等传统包管理工具,支持以操作系统镜像为粒度进行更新、回滚(替盘升级)以及有限的分层热升级,从而确保集群节点的软件版本和系统配置保持一致。

与其他节点池模式对比

智能托管节点池与不开启节点池托管、普通托管节点池的配置能力对比如下。

托管配置

不开启

托管节点池

智能托管

节点池配置

实例规格

手动配置

手动配置

可配置,支持按规格类型智能推荐

付费类型

手动配置

手动配置

仅支持按量付费

操作系统

手动配置

手动配置

仅支持容器优化操作系统 ContainerOS

系统盘

手动配置

手动配置

默认推荐配置,20Gi

数据盘

手动配置

手动配置

一块数据盘用于 ContainerOS 操作系统的临时存储,大小可配置

自动扩缩容

可选开启,手动配置

可选开启,手动配置

内置开启节点即时弹性 ,可手动配置

自动化运维能力

ECS系统事件自动响应

不支持

已内置开启

已内置开启

节点自愈

不支持

可选开启,手动配置

已内置开启

kubeletcontainerd自动升级

通过自动升级集群手动配置

已内置开启

OS CVE漏洞自动修复

不支持

可选开启,手动配置

已内置开启

使用须知

  • 容量边界

    • 使用智能托管节点池后,ACK将根据工作负载需求动态扩缩容节点,默认最大支持扩容至 50 节点。可通过节点池的扩缩容功能修改最大实例数。

    • 智能托管节点池不支持 Arm、本地盘等实例规格,且仅支持ContainerOS 3.6以上版本。ACK 已推荐默认的实例规格类型,可以满足大多数场景下的应用需求。也支持在控制台根据实际业务场景调整。建议设置足够数量的实例规格,以提升节点池的弹性强度,避免扩容失败。

  • 运维边界

    • 使用智能托管节点池后,ACK 将负责操作系统版本升级、软件版本升级、安全漏洞修复等运维职责,涉及软件版本升级、软件配置修改、重启、排水驱逐等操作。请避免对节点池中 ECS 节点进行手动运维,例如重启、数据盘挂载、登录节点修改配置等,以避免自动化策略冲突影响。

    • 请合理设置工作负载的副本数、PreStop 优雅下线策略、PodDisruptionBudget 策略等,以确保节点可安全排水且无业务中断影响。

    • 智能托管节点池旨在提供自动化、智能化的 Kubernetes 节点运维功能,在某些场景下,您仍需根据责任共担模型履行部分义务。

  • 存储规范

    • 使用智能托管节点池后,ACK 将基于采用不可变根文件系统的操作系统 ContainerOS 提升节点安全性,请避免使用节点系统路径存储(如 HostPath),推荐使用 PVC 作为持久化存储

快速创建

可在ACK托管集群Pro中创建智能托管节点池。

  1. ACK集群列表页面,单击目标集群名称,在集群详情页左侧导航栏,选择节点管理 > 节点池

  2. 节点池页面,单击创建节点池,选择托管配置智能托管,并按照页面提示完成配置。

    详细配置项说明,请参见创建节点池

相关文档